【创新方案精彩笔录】移动互联中的云端语音控制和语言处理技术详析

发布时间:2011-04-28 阅读量:2194 来源: 发布人:

中心议题:
    * 2011CCEF创新方案大讲台精彩笔录

本文整理自香港科技大学副教授冯雁在2011CCEF创新方案大讲台上的演讲。


大家好,今天我要跟大家讲的题目是云端语音和语言处理,其实云端这个概念不是最新的一个概念,云端早就有了,有多少人用过搜索引擎?有没有人没用过搜索引擎?搜索引擎都在哪里处理?都在云端,其实云端不是一个新的概念。但云端语音语言处理这是我们十几年已经做出原形了,在我们香港科技大学的实验室,但当时为什么云端语言搜索和语言搜索的概念没有实现在在消费者这方面?因为当时我们也没有智能手机,也没有平板电脑,当时对消费者来说,用不上,即使你在后面处理了。云端语音语言处理的概念为什么在云端,为什么不放在手机上,或者放在平板电脑上直接在上面用?为什么搜索引擎不是在手机上?因为它对CPU和内存等需求比较大。我今天讲的是我们在香港科技大学和深圳这边的科技园创办了万音达科技公司,今天讲的是我们的其中的平台。

先介绍一下我自己,我1997年在香港大学任教,之前是在美国bell实验室和法国、日本等做研究员,在美国、法国、日本都留过学,所以我会说六门欧亚语言,这跟我们这个产品有什么关系?等一下大家就可以知道。香港科技大学人文技术中心创办于1996年,是中国地区首个联合语音语言及信息搜索的研究中心,当年还没有百度,也没有某些公司。我们现在中心团队有31名博士后和博士、硕士、本科生,有4位教授。我可以介绍一下,当今在中国各大语音团队的研究所,比如说微软、东芝还有百度这些地方的研究所的领导团队里面有很多都是我们实验室的毕业生和(访问)学者和博士后,我们的核心技术团队位于港科大的创业中心。

在深圳的万音达科技在产学研基地,就是在科技园那里,科技园这边还有一个深圳市重点媒体和语音实验室,我们的使命是在适当的时间、适当的地点为适当人提供高质量的移动互联网服务,我想这个口号很多人都喊了,我想整个大会都是这个口号,我们的角色在哪里?先介绍一下我们现在在智能手机iphone和所有的android  phone、mac上面可以下载的一个应用叫做万音网,它是一个用语音和语言来搜索你随时需要的服务,包括景点、餐饮、购物、酒店等。为什么要用语音?因为有的时候打字实在太不方便,点也不好弄,因为全中国来说,(兴趣点)有一千万个,其实这个概念跟Google搜索有什么不一样?Google搜索也可以做到一点,Google搜索现在其实也有语音搜索。
 


但我们这个后面还有一个社交网,让大家去评,大家去看别人的评语。看别人的评语还有一个概念,每一个餐厅、每一个地方评的特别多,我去看的时候就不知道听谁的,有的人说好,有的人说不好,甚至他说好,打星,有的人5个星、4个星,到底什么意思?其实搜索做到今天为止,Google也好,我们在美国的实验下一步要做个性化的搜索,那么多的评语,我们要看到一个总结,而且这个总结要配合我的兴趣,这就是我们推出的口号,这是搜集后面的一个社交网。


 
云端语音语言运用有什么好处?首先我们3G服务和智能手机导致最大的变革是桌面互联网现在已经往移动互联网上走了,移动互联网是会比桌面互联网更大的局面。移动用户需要经常的服务是在恰当的时间、恰当的地点有关恰当的人服务,我们在桌面可以做很多事情,比如写一封信,写一个email,或者浏览一下,给人评一下微博,桌面都很方便。但现在提出的概念是智能手机的互联网服务还有车联网,在车上我们也要上互联网服务。我们在车上和在智能手机上跟在桌面互联网上的操作方法不一样,我们就需要更好的输入法,也需要更好的搜索方法,前后要连接起来。以前百度在2006年推出一个云搜索,你打一个电话进去,有一个小姐给你回答,那个很慢,也不是特别好。我试过一个公司的,品牌不知道叫什么,但他们的车点网概念就是你打电话去网路,有一个小姐帮你解答,我们一问问了10分钟,才给我解答出来,我的车已经不知道开到哪里去了。

 


大家知道用搜索引擎用惯的各位都知道搜索引擎不可能让人来在后边搜索,肯定是要用电脑。另外,现在Google,甚至百度也推出了语音搜索,这些语音搜索在网络上找的结果不是很方便我们浏览,因为它的服务性不见得是地点服务,而且不见得就是专门给你日常生活上的服务,你可以在上面找一些八卦新闻,它的针对性不一样。

我们再看搜索结果,你要是拿个智能手机去看搜索结果还是蛮累,因为它有很多(令)。说穿了云端语音语言服务是一个新的搜索服务,它帮助用户方便检索和个性化和基于位置的检索,加上通过社交网方便与大家交流,这就是刚才我我提到的,如果是用中文输入法或者是菜单式的浏览都会比较慢,有一个语音搜索可以帮助大家更快一些。另外这个概念可能比较新,原来我们一直用关键词来搜索,现在往后做,我们还要搜索什么?除了搜索网页,我们最近10年搜索的都是网页,但其实往后要搜索的除了网页还有微博甚至社交网的内容。我们怎么去搜索?这是一个要解决的问题。云端语音语言服务帮助用户,我刚才提过它怎么帮助消费者来用。但对于服务提供商有什么好处?我们可以通过语音输入帮助一个服务提供商,它的网站、它的服务做得更好,来达到很高的完成效率来吸引更多用户,比如说一个订票网站,在手机上的一个订票服务,它如果有语音搜索就会快很多。他们用上我们的推荐服务的可以吸引更多用户,什么叫推荐?其实在Google的广告本身就是一个推荐,它虽然是一个广告,但它很有针对性。我们用(28:51)设计的时候,它会看到你(28:55),然后连上那些跟(PO)有关的广告,一般研究发现了你如果看着页面和你的广告比较相关,广告效应是比较大的,如果广告跟你看的东西没有什么关系,一般人就不看广告了。所以有针对性的广告,我们叫做推荐。比如说你去买一个东西,你上网买一本书,然后推荐一些跟你喜欢看的书近的书,你就很可能去买。如果我去听音乐,音乐服务网站给你推荐一些你爱听的音乐,你很可能就会去听。但他推荐一些只是流行榜的,你不见得要听的东西,效率就没有那么高。我们可以为各大服务商提供更多个人化服务来确定目标人群。

我们怎么做推荐的?推荐也是一个云端语言处理的技术,我们是从影式的用户配置信息,比如说他现在的查询、现在在什么地方和他以前都找过一些什么历史信息中获取,还有一种是显式的用户配置信息,比如请用户登记的时候,叫他填一个表,或者从他的电子邮件、微博里面找出他的喜好,然后从这些配置信息里面,我们产生一个关于用户配置信息和协同过滤的情景相关的推荐和评价,还有产生一些定向的广告。所以我在今天说的是希望看大家出了以消费者身份来试用的话,盼大家能够来跟我们合作。

我们的技术跟别人有什么不一样?我们在语音语言处理和信息检索领域具有超过20年的研发经验,从1988年我就在这个领域,我们的技术是来自bell实验室,bell实验室现在都不存在了,当年是在bell实验室、美国的BBN和京都大学、法国国家科学研究中心。我们当时做多语种的自然语言处理和语言处理,我们精通多语种和多口音的技术,这不是我们自己自吹的,这如果在Google的学术搜索上,是能够找到我们的排位的。我们跟美国那些好的实验室,我们有什么不一样?我们在有口音的中文识别和理解,还有混合语言的理解这个领域,我们在世界上是前沿的,我们的技术就是将世界级的研究音引入中文。

我们的技术分三方面:语音处理、语言处理、信息搜索。在语言处理,我们的特色在哪里?跟国内现有的所谓有语音处理的公司,我们的技术有什么不同?首先我们用了多语种的声学建模,我们的语音处理后面的一个声学建模能够识别不同的语言、不同的口音。
 


等一下我会介绍我们其中一个Iphone和Android  iphone应用上多语种声学建模。我们的专长在混合语言语音识别,我们用的模型叫做非对称声学模型,还有多口音语音识别、自然语言的发音建模,甚至情感分析和识别,我们在中国做语音里面的情感分析做得比较早。我们从语音里面能够听出这个用户现在是高兴的,不高兴的,发脾气的还是很疲劳。比如说在车载应用上,这个就能用上了。
 


语音变换现在在游戏方面比较多,我们的语音变成主要在情感变换方面,这是我们多语音、多口音多语种语音识别,这是什么东西?这其实就是标准普遍话的一棵树,左边是一个口音,右边是另外一个口音,所以基本上我们的声学模型就是一个大森林,有很多树组在一起,这是我们怎么从语音中自动识别紧张的情绪,这是女声,这是男声。
 

 


我们自动把它的情绪紧张的语音和他情绪不紧张的语音分开来,这两个颜色就是我们把他分开的。这是我们怎么样分开情绪紧张不紧张的语音效果,而且我们是能做在各种语音上面,英文、发文、日文、中文都可以。
 


我们再讲第二个技术,第二个技术叫统计自然语言处理,我们是第一个在世界上引入语言“信号”处理和机器学习来做语音摘要,什么叫语音语言摘要?我们看点评的时候,那么多的点评,我们要自动把它摘要出来。如果有一个商家,有很多消费者在他们的网站上留言评论,如果有很多人,我们可以自动把它统计摘要出来。主要就是这些,主题检测和情感分析、中文语音命名实体提取等。
 


第三方面的技术叫做信息检索,信息检索说穿了就是所有搜索技术都属于信息检索,它可能用到自然语言处理,也可能不用到自然语言处理,如果它是用(kwO)匹配的话,它就没有用自然语言处理,详细的我就不讲了,应该说我们的特征就是在于下一代的信息检索是在于协同过滤和意见挖掘和排序和用户建模,所以我们现在做搜索,(35:23),结果都是一样,应该是不一样的,因为你找的东西和我找的东西,要看我们的个人兴趣来说,搜索引擎能够帮我们做到更好的服务。


 
这是我们10多年以来,就是我们在1996年成立研究室到现在的成果,我们的公司是最近这几年开的,我们的成果要提一下,我们1998年就开发了首个支持8种语言的多语言语音浏览器,当时在深圳给吴邦国等领导演示过,并且我们在2000年的时候就上线了第一个中文自然语言搜索引擎,当时百度还没有这些。我们当时做出的也得到世界各报纸的报道。我们也得到不同的奖,最近的奖就是去年我们在深圳政府这边得到一个“最佳汽车解决方案”二等奖,昨天我讲了一下这个方案。我们有超过有120篇的学术论文,19项国际专利,公司自己出了哪些产品?研究室有很多技术,哪些变成产品的呢?
 


第一个叫万音网,其实这个产品名字,你去app  store搜一下就能够看到。万音网是第一个中文基于位置的搜索社交网络平台,加上有云搜索等,第二个叫做万音拨号,万音拨号是个什么东西?大家如果用iphone和Android  phone有语音拨号,但语音拨号的solution,如果我们的(地址本)长了以后、大了以后,到1000个名字以后或者是环境比较吵杂的时候,它就不好用了,因为它这是嵌入式的。另外它不好用的地方就是像我这种人,我的地址本里面有一大堆中文名字,又有一大堆英文名字,还有一大堆发文名字,我的社交圈里面各个名字都有,我用语音拨号,现在所存在的语音拨号系统就不能做到混合语音拨号。我们是第一个可以用混合语音来拨号的应用,叫万音拨号。还有一个叫Talkin  Tweet  ,这是一个好玩的东西,是把大家的声音转到比较浪漫情感的转换的智能手机应用。

另外我们的后台叫做万音推荐,万音音乐推荐和万音导航,这就是我们正在寻找合作者,我们跟他们合作的。就是我们不做content,不做内容。但这些推荐平台和音乐推荐平台和导航平台我们已经有了。
 


 


万音网是个什么东西?大家就快快的看一下,在我们的展示台有智能手机给大家看,在这里有3G、wifi,都可以下载,在app  store上下载,叫万音网。你可以在社交网上跟人推荐和(平面),也可以用语音拨号来邀请你的朋友。
 


这些平台我就不多说了,第二个万音拨号是混合语言语音的拨号应用,它的识别率比iphone内置的识别率更准备,这是我们做给评测的。而且这个应用会延伸到通信录管理、名片处理,现在还都是免费的,以后我们会收费了。所以要下载,现在去下载。这是很简单的应用,现在来说只是一个语音拨号。
 


 
情感识别就是把情感识别变成技术,可用于手机游戏、网络游戏和以游戏方法来教育儿童、成人学习语言,我们有这个技术平台出来了,我们在找合作者,你们如果想设计游戏,或者设计语言学习等应用,都可以用我们的API来做。
 


这是我们的第一个(3P)应用,可以把你的语言变成一个不同的情绪,你可以寄给别人来玩。



 


还有一个平台叫做云端车载娱乐信息(汽种),我们昨天在这边有这个主题,我们已经讲过了主要在车载上面,我们做得更多的技术是什么?就是在云端技术上面还加上抗噪声处理,大词汇量和说话人定位,这在车载上面是比较重要的,GPS导航等,这是我们赢得的奖。




我们今天强势在哪儿?我们是第一个推动具有语音功能中文移动互联网平台,我们有最佳的中文和带口音语言语音技术,还有我们具有战略意义的把语音、语言和信息检索技术集成起来,现在有这个技术能力的都是一些大公司,比如说Google、微软,一般国内有这样背景的比较少。我们长期已经得到深圳及香港政府的强力支持,是个世界一流的研发团队。顺便提一提我们在香港科技大学有非常优秀的创新氛围,我们在基地这边有很好的基础设施,有都有助于吸引和培养顶尖的技术人才,我们有一个世界级的中国研发团队。

大家现在对这个市场都已经很熟悉了,中国目前的手机15%的是智能手机,但到2012年就会提高到40%,到2013年可能达到45%以上,今年已经超过5000万的3G用户了,车载方面中国是最大的汽车市场,而且可能是在2030年增长10倍,车载这方面用云端语音语言服务也有很好的前景,这是我们的合作模式。
 


我们提供我们的搜索平台给垂直市场用户,包括旅游,你想在智能手机上提供旅游服务、娱乐服务、教育服务等,我们都能提供这个平台。我们也可以为企业用户提供市场分析,我们可以帮你分析总结你的用户来源、留信、微博等。还有可以做广告跟踪和趋势分析。如果你们想做游戏,直接想做智能手机运用,你们需要语音技术,需要我们语音技术的(SBK),今天讲到这里,欢迎大家有问题的来找我,谢谢。

演讲的 PDF ,敬请下载:http://www.52solution.com/data/datainfo/id/3287

本文整理自 2011CCEF 创新方案大讲台的演讲内容,欲了解更多详细信息请访问http://www.52solution.com/activities/cedf2011

相关资讯
CIS芯片龙头年报解读:格科微高像素战略如何实现287%净利增长

格科微电子(688728.SH)2024年度财务报告显示,公司年度营收突破63.83亿元人民币,实现35.9%的同比增幅,归母净利润呈几何级增长达1.87亿元,EBITDA指标跃升107.13%至14.15亿元。这种爆发式增长源自其在CMOS图像传感器(CIS)领域实施的"技术锚定+场景穿透"双轮驱动战略,特别是在高像素产品矩阵构建和新兴应用市场开拓方面取得突破性进展。

RS2604 vs 传统保险丝:技术迭代下的安全与效率革命

RS2604作为一款高集成度、可配置OVP(过压保护)和OCP(过流保护)的eFuse开关,专为12V24V母线电压接口设计,兼顾热插拔保护与动态负载管理。其输入电压覆盖4.5V40V,极限耐压高达45V,适用于工业设备、汽车电子及消费电子领域。通过外部电阻灵活设置350mA至2.5A的限流值,结合±7%高精度电流检测,RS2604在安全性与能效间实现平衡,成为复杂电源系统的核心保护方案。

全球汽车芯片市场遇冷,恩智浦如何守住56%毛利率防线?

荷兰半导体巨头恩智浦于2025年4月28日披露的财报显示,公司第一季度营收28.35亿美元,同比、环比均下滑9%,但略超市场预期。在汽车、工业与物联网等核心业务需求疲软的背景下,Non-GAAP毛利率同比下降2.1个百分点至56.1%,自由现金流则维持在4.27亿美元,突显其成本控制能力。值得关注的是,管理层对第二季度营收指引中值(29亿美元)释放出环比复苏信号,但关税政策的不确定性仍为业绩蒙上阴影。

全闪存与软件定义双轮驱动——中国存储产业年度趋势报告

根据IDC最新发布的企业级存储市场追踪数据,2024年中国存储产业迎来结构性增长拐点。全年市场规模达69.2亿美元,在全球市场占比提升至22%,展现出强劲复苏态势。以浪潮信息为代表的国内厂商持续突破,在销售额(10.9%)和出货量(11.2%)两大核心指标上均跻身市场前两强,标志着本土存储生态的成熟度显著提升。

索尼启动半导体业务战略重组 图像传感器龙头或迎资本化新篇章

全球消费电子巨头索尼集团近期被曝正酝酿重大战略调整。据彭博社援引多位知情人士透露,该集团拟对旗下核心半导体资产——索尼半导体解决方案公司(SSS)实施部分分拆,计划于2023年内推动该子公司在东京证券交易所独立IPO。该决策标志着索尼在半导体产业布局进入新阶段,同时也预示着全球图像传感器市场格局或将发生重要变化。