语音识别还没飞起来,谷歌“唇语识别”又来了

发布时间:2016-11-29 阅读量:778 来源: 我爱方案网 作者: cywen

人工智能技术近年来突飞猛进,微软等硅谷巨头甚至宣称其语音识别系统已经能媲美人类。现在谷歌的AI在语言理解能力上更上一层楼,不仅可以通过更好的唇语识别来帮助听力障碍人士,多语言神经机器翻译(Multilingual Neural Machine Translation)也将显著提高翻译质量。


谷歌母公司Alphabet下属的DeepMind部门和牛津大学的研究者使用新闻视频对其AI系统进行训练。用于训练的视频总长超过5000小时,语句超过118,000句。视频取材自BBC电视台自2010年至2015年间播出的节目。训练完毕后,研究人员使用该系统对今年3月~9月间播出的口语节目进行测试。测试结果发现,系统通过“观看”说话者嘴部动作便可以准确识别出整个句子。比如“我们知道这里也会有数百位记者”。(We know there will be hundreds of journalists here as well)

给予相同的视频素材,专业的唇语识别专家能够达到12.4%的正确率。而AI系统识别正确率是46.8%。

前不久谷歌开始在“谷歌翻译”中运用神经机器翻译技术,能够识别准确地识别句子而不再仅仅是单词翻译。现在谷歌宣称使用多语言神经机器翻译技术后,谷歌翻译的翻译效果将再上一层楼。

谷歌在博客中称:“我们提出的结构无需改变基本的GNMT系统,而是在开头使用一个额外的‘token’来指定所需的目标语言翻译。”除了能够提高翻译质量,新的方法还支持“Zero-Shot Translation”,即在没有已知数据的情况下,能够对没有见过的语言进行翻译。

但是这些研究成果产生实际影响还有待时日,现在盛行的语言识别技术还是由语音识别技术占主导,而且就连语音识别技术也还积极拓展市场。
相关资讯
双面散热+5×6mm²封装:解密英飞凌如何实现IBC能效三级跳

随着AI算力需求呈指数级增长,全球超大规模数据中心对供电系统的能效与功率密度提出更高要求。英飞凌科技(FSE: IFX)最新发布的OptiMOS™ 6 80V功率MOSFET,通过5x6 mm²双面散热(DSC)封装技术,在中间总线转换器(IBC)应用中实现0.4%效率提升,单kW负载节省4.3 W功耗。据测算,部署该方案的2000机架数据中心每小时可节能1.2 MWh,相当于25辆小型电动车充电所需能量。

900GB/s突破!英伟达开放核心互连技术引发行业震动

在2024年台北国际电脑展(Computex 2024)主题演讲中,英伟达CEO黄仁勋宣布将向全球芯片设计企业开放其核心互连技术——第四代NVLink Fusion。该技术旨在突破传统芯片间通信瓶颈,为构建下一代AI算力集群提供标准化解决方案

多协议并发+超低功耗!Qorvo QPG6200系列重塑物联网连接标准

全球连接与电源解决方案领导厂商Qorvo®(纳斯达克代码:QRVO)近日宣布,其QPG6200产品组合新增三款支持Matter标准的系统级芯片(SoC),包括QPG6200J、QPG6200M和QPG6200N(注:信息源自Qorvo官方新闻稿)。这一扩展标志着Qorvo在智能家居与工业物联网领域的进一步突破,通过ConcurrentConnect™技术与超低功耗架构,为多协议设备提供无缝互操作性与高效能支持。

双城启幕,共探软件定义未来——MATLAB EXPO 2025中国用户大会即将开启沪京双城科技盛宴

北京,2025年5月19日——在数字化浪潮重塑产业的当下,MathWorks正式公布MATLAB EXPO 2025中国用户大会的革新布局。这场年度技术盛会将于5月20日登陆上海国际会议中心,5月27日移师北京国家会议中心,首创"沪京双城"联动态势。本届大会聚焦"软件定义产品"的产业革命,通过50+深度技术研讨与行业实践案例,系统展示MATLAB®和Simulink®在智能驾驶、新能源系统、脑科学计算、无人机集群等前沿领域的技术突破,汇聚全球500强企业技术领袖、科研院所专家及创新团队,共同解构数字化工程转型的底层逻辑与实施路径。

康盈半导体扬州基地投产:国产存储产业链再添“芯”动能

在全球半导体产业加速重构的背景下,中国存储企业正通过技术创新与产业链整合抢占战略高地。2025年5月16日,康盈半导体扬州存储模组智造基地正式投产,标志着其在存储领域的全产业链布局迈出关键一步。这一项目的落地,不仅为国产存储技术自主可控注入新动能,也为区域经济转型升级提供了示范样本。