【创新方案精彩笔录】基于3G车载语音控制娱乐信息系统的解决方案

发布时间:2011-04-28 阅读量:2835 来源: 发布人:

中心议题:
    * 2011CCEF创新方案大讲台精彩笔录

本文整理自香港科技大学副教授冯雁在2011CCEF创新方案大讲台上的演讲。


我介绍一下,我是香港科技大学电子及计算机工程系的冯雁,在我们1997年的时候成立了人类语言技术中心,我们主要研究方向是语音识别,自然语言处理以及机器翻译,都是用统计方法和信息处理方法。今天我们给大家介绍的是我们在车载语音控制和娱乐信息方面做的一些研发,我们已经开出了一套原型系统。我们从2009年在香港政府车载开发研究所的支持下,开始的一个研发。先讲讲我们这个特征,我们主要是在云计算这方面。我们从2008年到2009年我们就看到车载信息娱乐系统一定是利用高速的网络连接,刚才有一位周总已经跟大家介绍了,就是车联网的概念。我们觉得就是说现在在北美来说,所有的车载见面几乎都有一个叫做无需用手和眼睛运作的,用语音识别来操作的一个界面。因为有车联网的概念有云计算这个概念以后,我们就可以在网页上下载多媒体的文件,听歌通过语音命令进行导航,可以通过语音进行拨号,这样驾驶人员就不需要用手去操作,而是用语音来操作,甚至可以有网络浏览,汽车网络门户这样。


 
云计算的平台可能大家现在已经蛮熟悉的,就是说一般我们所有的计算都是在后端服务器上面,那么前端就主要是一个客户端,云计算本身是可以用云计算的方法,也可以是嵌入式的方法,因为现在有一些前端的平台它的CPU已经是非常成熟了,所以可以用嵌入式的方法。


 
我们提供两种方法,我想市场需求可能在座各位比我更是专家了,中国已经是世界最大的汽车市场了,我觉得现在大家开车的时候,原来我们就是作为一个交通工具,但是现在汽车已经可以说是我们有时候休闲工作都是在汽车里面了,我们在汽车里面休闲工作的时候,我们可以干一些什么呢?如果能够联网的话,我们就可以有很多娱乐信息的提供,包括听歌下载邮件甚至发邮件,用语音来发邮件,或者工作的话也可以联网和办公室保持联络等等,那现在3G网络在中国大陆已经铺开了,3G网络能够让我们分布语音识别能够真正的实用,


 
分布式语音识别已经是好多年了,我在语音识别开始的时候,在美国贝尔实验室的研究员,我们1988年开始做分布式语音识别,所以以前已经做了很久的语音识别,分布式语音识别的好处就是很多抗噪、自然语言的处理都可以在服务器上面处理,这是很多嵌入式系统做不到的,


 
但是今天因为有3G的实现,甚至4G,那么分布式语音识别可以得到真正的实用了。现在技术难点,因为我们今天主要是讲语音识别,就是车载语音识别,这些都有哪些技术难点呢?大家可能觉得这个公司也有语音识别的功能别的也有,基本上在车载方面的技术难点,第一点就是汽车以及道路的噪声,汽车道路噪声和一般我们平时在办公室的环境下是体验不到的,我们语言识别的模型叫能够处理汽车和道路的噪声,另外一点就是如果我们真的是把车子拿来作为一个娱乐中心的话,我们要听歌我们要下载一些电影甚至,这些就会有各种叫做混合语音输入,听歌的话大家要听几千首歌,总有一些歌名里面有英文和中文混在一起的,然后还有叫做多语言语音,比如记事本里面可能我的记事本里面有1000个人名,1000个人名可能一半是中文名字另外一半英文名有法文名的,所以叫做混合语言。我们要能够实现,今天苹果Iphone上面的语音拨号做不到这个功能,就是它不能混合语言来操作,我们的做得到,大家可以试一下。
另外就是各地区的口音,这点我们原来在美国做研究的时候,没有往这方面努力,因为美国人说英语,他的口音是有,但是没有特大的分别,就是英国口音美国口音澳洲口音有点分别,但是我们在中国的话,每个中国人讲普通话都有各地区的口音,有山西口音、上海口音、北京口音、山东口音,大家都有口音,如果我们做中文识别不去处理口音的话,那是做不好的。然后就是大词表,现在我们基本上要在网站上做搜索的话,要达到一百万词表的能力,还有就是自然余音的输入,我们在开车的时候可能就是说我想去一个地方,可能我不想说我不知道我想去哪里,我只想找一个附近有没有油站,或者想买个礼物给我朋友,开车的人在寻找的时候,他说的可能就是一个自然语音的输入,还有就是嵌入式系统有限的资源,就是我们要解决的。那云端计算就帮我们解决了这个意识。还有就驾驶过程中要面对各种外界设备,我等一下要讲一下,手机的使用,我们驾驶员用手机,其实蛮危险的,我每天开车上班整天就在用手机,就是我觉得用语音来控制手机对我是非常重要的,我这个人开车又开不好,老有出事故的可能性,虽然开了20多年车。

 



 
现在的解决方案就各种各样的都有,手机上有语音识别,也有导航设备,也有语音输出,但是没有输入,这些各种各样的设备,我一个人上车我有一个Iphone,我有一个Ipad,我有一个后装式的车载设备,放在一起我要操作起来还是蛮麻烦的,仍然没有实现手和眼的自由,我希望我一上车以后系统自然就知道我这个驾驶者自然就可以跟我沟通,我们科大现在在做一个汽车实验中心,将来5年计划能够做成一个什么样的情况呢?能做到你的汽车变成你的助手,应该是你上车以后,他会现在告诉你今天的天气预报,然后他会提醒你今天有哪些会议要开,有电话来你不愿意接他可以帮你先接了,把语音给你记下来,然后再提醒你,这些就是说汽车在你不止是一个交通工具,5年以后我们能看到的是他成为你的助手。


 
所以我们要做到其一就是单一的语音界面,我们的技术在前端语音方面做了哪些?做到语音检测,特征压缩和普检性规划这一点。


 
我们是从前端处理加上后端处理,什么叫前端处理加长后端处理?
 


就是前端语音进来的时候,我们已经做一些抗噪的处理,另外在云端我们做计算的时候,也有一些处理的方法,这些都是我们申请专利的方向。然后我们有先进的口音处理技术,这是我们在中国来说是独家的,在世界上来说口音处理我们也做的比较早,你们要是去谷歌叫做学术搜查的话,会看到我们给人噪音处理学术论文是我们做的最多,还有句式模型。
另外就是自然语言处理,我们是专注在大词汇量,因为今天我们导航系统就是说POI,就是兴趣点,全国来说肯定有一千万个,一个城市来说可能几百万个,我们要真正做到自然语音处理的话是要做成大词汇量和混合话题语音模型,还有多功能语音识别。然后我说到了在下一步我们这几年应该做到能够让车子和您能够对话和自然互交,就是你和车子对话,然后他就会作为自然语音的助手,我们的优势刚才已经说过了,我再提一次,就是抗噪声处理、大词汇量、自然语音处理,多口音、多语言混合语音的识别以及单一设备多功能。

 


 

为什么我们在这里做这个展示呢?就是我们在实验室里做的结果已经做成原型了,我们希望各大汽车电子制造商、设计商、无线制造设备商、移动网运营商和各种GPS服务设备提供商,网络服务提供商来合作,把我们的技术带给各位乘客和驾驶员,今天其实驾驶员和乘客来说,你们也可以直接体验我们的技术。如何体验?你们可以通过Ipad或者android pad甚至Iphone或者android phone去下载,直接为各消费者自己应用。


 
我们讲一讲我们的希望和模块设计。我们主要的模块分几块,一块是语音识别器,另外一块是说话人定位,什么叫说话人定位?
 


就是在车上,现在大家可以用蓝牙麦克风,但是我们最方便的是你进车以后,我们有两个麦克风,你说话他能测到这是驾驶员位置说出来的命令,那么他就会服从你的命令,如果是你的小孩在后面叫呢?


 
他就不管了,这叫说话人定位技术,这对车载应用是非常重要的。另外噪声消除是另外一个模型,口音模型,对话管理,对话管理就是说你刚才说了一句话,系统要怎么样跟你对话。还有另外模块是控制硬件平台,还有一块是GPS导航,蓝牙,蓝牙做什么的呢?蓝牙就是帮助它这个系统,你可以直接跟系统说,我要打电话给谁,然后他通过蓝牙帮你拨号出去,帮你手机拨号出去,软件模块,我就不详细讲了,主要就是让大家看到的是,这是语音拨号模块,听音乐下载音乐和导航,现在我们主要是推这三大功能,网站上各种功能我们都可以加上这个界面。基本的识别器我们是分三块,一个是识别器本身,还有就是三个模型,一个就是叫做声音学模型和发音字典还有就是语言模型。


 
识别器先和说话人定位过来合作,后端和对话管理模型合作,然后前面还有噪声消除。我们的基本语音识别器是我们支持浮点和定点运算,另外这是基本的一些声学模型的特征。我们用的是普通话,有口音有方言的普通话都能处理。刚才我提到这几个模块是怎么配合,前面有个双通道的语音,就是说这是我们独创的,

 


一般要做到除噪的语音识别前面一般会设置各种各样的麦克风,然后以它来定位,以它除噪,我们发明了一个方法,只要两个麦克风就能做到同样的功能。以前就有人试过,但是以前人家做的两个麦克风的效果没有我们的好。首先讲讲说话人定位,说话人定位我们是靠两个麦克风而已,不需要很多麦克风在上面,首先是双通道,然后有语音活动的识别,没有人说话系统就不会运作,有语音的话我们有个能量比较,能量比较我们也有个位置图,所以可以判断到是不是驾驶员在说话,是驾驶员在说话就做语音识别,不然继续检测。我们现在测试结果,应该说在世界上来讲,我们都是领先的,我们两个麦克风能做到实时的,基本上不能感觉到。这是驾驶员,我们两个麦克风放在这儿,就能测到驾驶员的位置。


 
噪声消除我们用一个(1:16:46),怎么说呢?我们这方面尝试平稳噪声和非平稳噪声都有较好的消噪结果,什么叫平稳噪声?


 
譬如说噪声一直不改,譬如说风扇的声音,一直很低的平稳噪声,像我们现在附近听到的大部分都是我们所谓的不平稳噪声。就是这个噪声一直有变化,除噪最难的就是有变化的噪声,那么在驾驶员开车的时候,路上的噪声有一部分是平稳噪声,有路的噪声,有一部分就是汽车本身的哪个引擎的噪声,那也属于比较平稳的噪声。什么叫不平稳的噪声?就是车速加快以后,它的噪声不一样了,还有就是有人在旁边说话,那是绝对不平稳的噪声,我们的方法对这两种噪声都能做到比较好的消噪结果。
我们的噪声有一个自适应的时间,所以他马上能够在一秒以内就能自适应,处理好当时的噪声。这是我们噪声消除的流程图。这是噪声消除的一个例子。这个黄色我们看到的是真正的噪声,然后这个蓝色的是一个我们预算出来的噪声,黄色的还有噪声的语音,蓝色是我们预算出来的噪声,然后就把含有噪声的语音把它的噪声去掉,剩下的就是我们要去掉的噪声。


 
我们再讲讲口音模型,口音模型我们是做关于主要是带有口音普通话语音模型,因为他会造成混淆和完全混淆的情况,那么我们处理口音的时候,在两个不同的方面来处理,


 
一方面是它音节的混淆,还有一方面是它在声学方面的混淆,我就不详细说明我们是用什么办法了。它不仅提高带口音语音的识别,而且提高不带口音语音的识别,就别人做口音语音识别是把一个声学模型完全改造适合广东话口音或者是适合上海话口音的语音模型。哪种语音模型对标准语音又不行了,所以我们的语音模型是对于各种各样的口音,同时处理都没有问题,准确率可以达96%。这是我们的口音模型。


 
对话管理就是为了让基于规则有限状态的对话管理,让车载系统知道你现在在什么样的状态之下,我们的对话管理要估计到触摸屏、按键和语音这三种不同的输入法。
 


GPS的地图。


 
现在我们这个原型系统是可以在不同的硬件平台上实现,所以各位如果就是说有些特制的系统我们也可以做到上面去。Ipad、android pad上面也可以。谢谢大家!我们的展台大家有兴趣的可以过去看看。

演讲的 PDF ,敬请下载: http://www.52solution.com/data/datainfo/id/3040

本文整理自  2011CCEF 创新方案大讲台的演讲内容,欲了解更多详细信息请访问 http://www.52solution.com/activities/cedf2011


相关资讯
CIS芯片龙头年报解读:格科微高像素战略如何实现287%净利增长

格科微电子(688728.SH)2024年度财务报告显示,公司年度营收突破63.83亿元人民币,实现35.9%的同比增幅,归母净利润呈几何级增长达1.87亿元,EBITDA指标跃升107.13%至14.15亿元。这种爆发式增长源自其在CMOS图像传感器(CIS)领域实施的"技术锚定+场景穿透"双轮驱动战略,特别是在高像素产品矩阵构建和新兴应用市场开拓方面取得突破性进展。

RS2604 vs 传统保险丝:技术迭代下的安全与效率革命

RS2604作为一款高集成度、可配置OVP(过压保护)和OCP(过流保护)的eFuse开关,专为12V24V母线电压接口设计,兼顾热插拔保护与动态负载管理。其输入电压覆盖4.5V40V,极限耐压高达45V,适用于工业设备、汽车电子及消费电子领域。通过外部电阻灵活设置350mA至2.5A的限流值,结合±7%高精度电流检测,RS2604在安全性与能效间实现平衡,成为复杂电源系统的核心保护方案。

全球汽车芯片市场遇冷,恩智浦如何守住56%毛利率防线?

荷兰半导体巨头恩智浦于2025年4月28日披露的财报显示,公司第一季度营收28.35亿美元,同比、环比均下滑9%,但略超市场预期。在汽车、工业与物联网等核心业务需求疲软的背景下,Non-GAAP毛利率同比下降2.1个百分点至56.1%,自由现金流则维持在4.27亿美元,突显其成本控制能力。值得关注的是,管理层对第二季度营收指引中值(29亿美元)释放出环比复苏信号,但关税政策的不确定性仍为业绩蒙上阴影。

全闪存与软件定义双轮驱动——中国存储产业年度趋势报告

根据IDC最新发布的企业级存储市场追踪数据,2024年中国存储产业迎来结构性增长拐点。全年市场规模达69.2亿美元,在全球市场占比提升至22%,展现出强劲复苏态势。以浪潮信息为代表的国内厂商持续突破,在销售额(10.9%)和出货量(11.2%)两大核心指标上均跻身市场前两强,标志着本土存储生态的成熟度显著提升。

索尼启动半导体业务战略重组 图像传感器龙头或迎资本化新篇章

全球消费电子巨头索尼集团近期被曝正酝酿重大战略调整。据彭博社援引多位知情人士透露,该集团拟对旗下核心半导体资产——索尼半导体解决方案公司(SSS)实施部分分拆,计划于2023年内推动该子公司在东京证券交易所独立IPO。该决策标志着索尼在半导体产业布局进入新阶段,同时也预示着全球图像传感器市场格局或将发生重要变化。