从语音技术本身与其发展轨迹了解语音技术的真谛

发布时间:2016-11-24 阅读量:2376 来源: 发布人:

语音技术在计算机领域中的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势,本文笔者从语音技术本身出发,再结合当前技术的发展方向,带您全面的了解智能语音技术本身。


语音技术的合成方式

语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。

波形编辑合成:这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音,这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。

参数分析合成:这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音波形重新还原出来。

规则合成:这种合成方式通过语音学规则来产生目标语音,规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则.当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形.由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等.由于语句中的轻重音,还要归纳出语音减缩规则。



语音技术的发展方向

1、提高合成语音的自然度提高合成语音的自然度仍然是高性能文语转换的当务之急.就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大,基于语音数据库的语音合成方法有望进一步提高语音合成的自然度.因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的,因此有可能最大限度地保留语音的自然度。

但由此产生了一系列新的需要研究的问题,包括:如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题,对数据库进行定标问题;以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等等.-----无论用哪种合成方法,韵律规则的总结,特别是连续语音的韵律规则总结,尽可能将定性的规则描述定量化,对自然度始终有最重要的影响.还有前端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面的解决,需要自然语言理解的突破。

2、丰富合成语音的表现力目前国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩.随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上.即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展.这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成,涉及人类大脑的高级神经活动.但就语音合成来说,仍是一个要丰富合成语音的表现力问题。

相对来说采用波形拼接方法来增强合成语音表现力比较困难,尽管也可以通过增加音库容量和音库个数来达到改变合成语音的特性,但毕竟它对韵律的控制能力非常有限.更为有效的办法是采用参数合成法,分析参数特征,通过对相关参数的调整来实现对年龄、性别特征的改变,进一步实现语气、语调的变化,由于这种改变是连续的,对象特征可以千千万万,显得更有生命力.近年来提出的基于LMA(对数振幅近似)技术的语音合成器,Hybrid Harmonic/Stochastic模型,Sinusoidal模型等已被证实是一些新颖的能合成出高质量语音的参数合成方法,为此应继续深入这方面的研究,以期在参数合成技术上取得突破。

3、降低语音合成技术的复杂度语音合成技术正在走向市场.为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面两个问题,提高合成语音的质量和增强语音合成的表现力以外,在其他实用化方面也有要加以改进的地方.就目前汉语文语转换系统而言,减小音库容量就是一个重要课题.目前高质量的汉语文语转换系统一般需要几兆字节到几十兆,甚至几百兆字节的存储容量,这在以PC机或工作站为硬件平台的应用中是没有问题的。

而对于象HPC,PDA及无线通信手机,商务通等资源有限的设备上就没法承受.解决的方法可以是通过语音压缩编码的方法来压缩音库所需的容量,或者采用更小的合成基元,例如用声母、韵母或双音素、半音节,以及减少合成语音所需的音节基元数等等.然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响汉语语音合成的应用.既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。

4、多语种文语合成语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开放的信息社会和网络时代显得十分重要,多语种的文语合成有着独特的应用价值.例如在自动电话翻译,有声的电子邮件等中都提出多语种的合成,即使是对汉语合成也有多方言文语转换的需求.理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器,但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的,所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。

例如汉语就和西方语言有很大的差异,国内的系统都是做汉语文语转换,它的一套韵律控制规则完全不适合于英语,而且主要是合成汉语普通话,即使推广到广东话和上海话都有相当的难度.可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路.美国贝尔实验室在多语种文语转换方面作了大量的工作,其中包括汉语普通话合成,值得注意。

想更加了解语音识别技术,不妨看看最近科大讯飞举办的智能语音识别大赛。欲解决行业痛点,欲有行业创新精神,人才是关键,一两个人或许改变不了什么,但当一群满怀激情和创意的人集中在一起时,碰撞出炫目的火花,创新的火苗或许也将由此衍生而出。如今,就有这样一个绝佳的舞台供我们大展拳脚——由语音界的大佬科大讯飞联合我爱方案网、快包主办的2016讯飞智能语音设计大赛于近期拉开帷幕,目的是为了征集语音领域更多的应用场景以及创意方案。



凡参赛的选手均有机会获得科大讯飞实习或者工作的机会,而通过入围的个人或者团队不仅仅可以获得由科大讯飞提供的价值十万的开发板的使用权,科大讯飞也会为参赛的选手提供一系列语音方面的技术资源等,待开发完成后每个团队均将获得2000元的现金大奖。而此次大赛的第一名当然也会有特别的大奖,2万现金等你来拿!一切都已准备就绪,只差你那改变世界的一刹那灵感!

无论你是立志往后要成为工程师的莘莘学子,还是已经走在了工程师的精英道路上,参加本次大赛都可以得到锻炼己身的目的,最为重要的是能够获取宝贵的项目经验,同时也能结识一些志同道合之辈。

此次大赛从2016年11月17日开始,历时2个月,面向全国开发者、科技企业、科研机构、高效学生、创客等群体。

大赛规则:此次大赛采用开放式参赛的形式,涉及到智能家居、机器人、智能穿戴、汽车电子、IOT五大项目领域。参赛选手可以是智能硬件领域的技术控,也可以是不懂技术却拥有创意的梦想者。技术控需要具备这五大参赛领域相关的智能硬件开发经验和拥有成功解决方案的案例,梦想者需要拥有智能硬件新颖、可实现产品的创意。但是两者提交的参赛项目要求最少接入一种科大讯飞智能语音技术(语音听写、语音合成、人脸识别、语音唤醒、麦克风阵列、AIUI等)。

大赛分为初赛和决赛两部分,初赛中,所有的参赛团队必须通过上述两种方式提交相关资料,大赛主办方将对所有报名参赛的项目进行统一审核,按照大赛制定的标准择优选择20个项目晋级复赛,并提供相应开发板给晋级选手。而决赛中,晋级的选手需要在限定的开发时间内将自己的创意变现并提交相关文档以及演示视频。

你只需要点击报名,专心参赛,我们将会为你解决了所有后顾之忧,还等什么呢,Come on!

报名链接:http://www.52solution.com/index.php/Home/Special/kdxf

相关资讯
双面散热+5×6mm²封装:解密英飞凌如何实现IBC能效三级跳

随着AI算力需求呈指数级增长,全球超大规模数据中心对供电系统的能效与功率密度提出更高要求。英飞凌科技(FSE: IFX)最新发布的OptiMOS™ 6 80V功率MOSFET,通过5x6 mm²双面散热(DSC)封装技术,在中间总线转换器(IBC)应用中实现0.4%效率提升,单kW负载节省4.3 W功耗。据测算,部署该方案的2000机架数据中心每小时可节能1.2 MWh,相当于25辆小型电动车充电所需能量。

900GB/s突破!英伟达开放核心互连技术引发行业震动

在2024年台北国际电脑展(Computex 2024)主题演讲中,英伟达CEO黄仁勋宣布将向全球芯片设计企业开放其核心互连技术——第四代NVLink Fusion。该技术旨在突破传统芯片间通信瓶颈,为构建下一代AI算力集群提供标准化解决方案

多协议并发+超低功耗!Qorvo QPG6200系列重塑物联网连接标准

全球连接与电源解决方案领导厂商Qorvo®(纳斯达克代码:QRVO)近日宣布,其QPG6200产品组合新增三款支持Matter标准的系统级芯片(SoC),包括QPG6200J、QPG6200M和QPG6200N(注:信息源自Qorvo官方新闻稿)。这一扩展标志着Qorvo在智能家居与工业物联网领域的进一步突破,通过ConcurrentConnect™技术与超低功耗架构,为多协议设备提供无缝互操作性与高效能支持。

双城启幕,共探软件定义未来——MATLAB EXPO 2025中国用户大会即将开启沪京双城科技盛宴

北京,2025年5月19日——在数字化浪潮重塑产业的当下,MathWorks正式公布MATLAB EXPO 2025中国用户大会的革新布局。这场年度技术盛会将于5月20日登陆上海国际会议中心,5月27日移师北京国家会议中心,首创"沪京双城"联动态势。本届大会聚焦"软件定义产品"的产业革命,通过50+深度技术研讨与行业实践案例,系统展示MATLAB®和Simulink®在智能驾驶、新能源系统、脑科学计算、无人机集群等前沿领域的技术突破,汇聚全球500强企业技术领袖、科研院所专家及创新团队,共同解构数字化工程转型的底层逻辑与实施路径。

康盈半导体扬州基地投产:国产存储产业链再添“芯”动能

在全球半导体产业加速重构的背景下,中国存储企业正通过技术创新与产业链整合抢占战略高地。2025年5月16日,康盈半导体扬州存储模组智造基地正式投产,标志着其在存储领域的全产业链布局迈出关键一步。这一项目的落地,不仅为国产存储技术自主可控注入新动能,也为区域经济转型升级提供了示范样本。