麦克风阵列技术之后 智能语音的主战场在哪里?

发布时间:2017-01-25 阅读量:927 来源: 我爱方案网 作者: jiangliu

消费级麦克风阵列的兴起得益于语音交互的市场高速发展,解决了远距离语音识别的问题,保证真实场景下的语音识别率,由于这种无可替代的特性,使得麦克风阵列与科大讯飞一起,成为了2016年智能语音行业关注的焦点。随着物联网、4G、大数据和云计算的提出与落地,以提升用户体验为口号的智能语音将继续以火热之姿占据2017人们的主视线,这一次,智能语音技术的主战场又在哪里呢?

语音技术大规模爆发

语音进入大众视野已有许多年历史,事实上,Siri早在2011年就已经发布,当时国内也有不少跟随者,为什么5年之后的今天语音才进入爆发期呢?最关键的原因在于:

1、技术进入成熟可用阶段。当识别率只有90%的时候,语音就会被吐槽为玩具,然而,随着深度学习技术被引入语音之中,语音技术就实现了从90%到99%的跨越。百度有基于百度大脑深度学习技术的Deep-Speed技术,讯飞有“讯飞超脑”,搜狗也与清华大学联合建立人工智能实验室,人工智能驱动语音技术走向成熟,变得可用,是语音技术今天爆发的第一个背景。

2、4G网络普及速度超预期。不论是Siri、度秘还是语音输入法,要能准确、快速识别出语音的前提是终端要接入网络,并且要高速网络,4G网络在最近两三年的普及速度超过了所有人的预期,5G商用也越来越近了,高速的网络环境给语音提供了便利的基础设施。

3、大数据和云计算普及应用。人工智能算法生效的前提是对海量数据进行机器学习,同时要通过云端大规模集群进行并发式计算。语音技术需要对大量的语料进行计算,大数据和云计算在这几年成为互联网基础设施,成为语音技术爆发的又一个前提。

4、语音应用场景大幅增加。这几年,后移动互联网时代迎来了几波潮流:O2O、智能硬件(智能汽车、智能家居、智能可穿戴等等)还有互联网+,这些场景给语音提供了大量的应用场景。

语音爆发在即,开发者并不具备研发语音底层技术的能力,但可以将巨头开放的语音技术与自身业务紧密结合,成为语音技术的应用者。市面上有不少语音开放平台,有的收费、有的免费,现在最普及的语音开放平台,来自于百度。百度语音平台在2013年11月正式开放,在当时我的看法是“百度语音开放可以成为推动这一市场蓬勃兴起的催化剂”,现在看来这是对的。


语音大战新的主战场在哪里?

近年来,随着人工智能风口的涌入,语音技术作为人机交互最自然的方式,亦备受行业关注,与之相关的技术也成为行业研究的新话题不过,语音技术进入爆发期之前,还有许多应用空间,开发者有复杂多样的需求,麦克风阵列技术虽然解决了远距离声控问题,但是基本的语音技术还有许多难点要克服,除了抗噪、口音两大问题之外,语音接下来的关键竞争点在于:

1、语音唤醒技术。

我们通过“Hey Siri”“Ok Google”唤醒语音助手,这让语音助手随时待命,不过对移动设备来说有较高的功耗压力(Google Home和Amazon Echo音箱一直插电,不用考虑功耗问题),还有就是唤醒准确率存在问题,要么手机听不到,要么误判。还有就是唤醒的语句固定、不能区分用户身份,体验不够好。百度语音开放平台三周年时选择开放唤醒二期技术,功耗是友商的三分之一,唤醒准确率达95%,支持“茄子”启动拍照这样的自定义唤醒词,相信之后还会引入声纹识别技术区别身份。

2、远场语音交互。

现在语音交互技术对人与设备之间的距离有要求,要“对着手机说”,这其实是很傻的,我们在生活中与人对话,可不会距离这么近。在家里我们要控制电视机,还得对着遥控板说。远场语音交互技术解决的就是这个问题,它让机器可以听到几米外的人说的话,挑战也很大,有回音,有噪音,有衰减,百度已经自主研发了支持3-5米的远场语音技术,这意味着之后我们可以睡觉时让热水器启动,或者坐在沙发上直接对着电视发号施令了。

3、语音合成技术。

现在机器说话都很死板,我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是,让机器说话声音更像真人,不只是“音色”接近真人,而是更有情感,抑扬顿挫、饱含深情。百度语音开放平台基于大数据和深度学习建模方式,在情感合成上有较好的表现,语音开放平台增加的一个新能力就是语音合成技术。

4、长语音识别。

输入一大段话的识别,过去对机器来说很有难度,涉及到断句等诸多方面,现在输入法,包括大会上演讲者的声音识别都有不错的表现,这表明长语音识别技术正趋于成熟。不过,要实现同声传译、用语音发邮件、写文章,甚至进行会议纪要,短期内还是很困难的,李彦宏、王小川等大佬们的说法也是“未来会取代同声传译”。当然,随着长语音识别技术的成熟,接下来语音还有更多应用场景,比如智能客服、内容纪要等等,取代同声传译不会这么快,但是最终一定会。

5、语义理解技术。

语义理解能力进一步提升,中文博大精深,很多话文字一样,不同场景表达意思不一样,语音技术要跟场景结合去理解语义,还要结合上下文。甚至要跟别的智能技术结合去理解,比如用户可能会指着一个物体说“请问它的英文怎么说”,只有语音技术就解决不了这样的交互,还得有图像识别技术;再比如用户会问“我们这里的天气怎么样”,这需要LBS技术的配合。总之,基于场景、结合人工智能综合技术的语义理解,可能会是语音技术接下来攻克的重点。

这些语音技术开始于麦克风阵列之前,但至今还未得到最佳的解决方式。因此,2017年,智能语音技术的本质还是要回归这些基础技术。
相关资讯
中国芯片产业再突破:小米自研3nm玄戒O1芯片量产开启高端化新篇章

2025年5月20日,小米集团董事长雷军通过微博宣布,小米自主研发的3nm旗舰芯片“玄戒O1”已进入大规模量产阶段,并计划于5月22日发布会上推出搭载该芯片的高端旗舰手机小米15S Pro和OLED平板7 Ultra。这一突破标志着中国芯片设计能力正式跻身全球第一梯队,成为继苹果、高通、联发科之后全球第四家掌握3nm手机SoC技术的企业。

国产芯片突围战:国科微4TOPS算力芯片如何撼动车载AI市场?

在全球汽车智能化浪潮下,车载芯片正成为产业链竞争的核心战场。国科微近期在接受机构调研时透露,公司已完成多款车规级AI芯片和SerDes芯片的研发测试,并通过ISO26262 ASIL B功能安全认证,标志着国产芯片企业在智能驾驶领域实现关键技术突破。本文将结合行业趋势与企业动态,分析其技术布局与市场前景。

从去库存到补周期:2025上半年存储市场供需拐点深度透视

全球存储产业在2025年上半年经历了显著的价格波动周期,呈现典型的"V型"复苏态势。据TrendForce最新市场监测数据显示,五大NAND Flash头部厂商(三星、SK海力士、美光、铠侠、西部数据)于二季度联合实施产能调控策略,将稼动率下调10-15个百分点,这一战略性减产措施有效缓解了市场库存压力。存储器现货价格指数显示,NAND Flash产品价格在Q2实现3-8%的环比涨幅,成功扭转连续三个季度的下行趋势。

开关损耗降低55%:解析东芝第三代SiC MOSFET的竞争优势与应用前景

2025年5月20日,东芝电子元件及存储装置株式会社(以下简称“东芝”)宣布推出四款650V碳化硅(SiC)MOSFET器件——TW031V65C、TW054V65C、TW092V65C和TW123V65C。这些产品基于第三代SiC MOSFET技术,采用创新的DFN8×8表贴封装,显著提升了功率密度和开关效率,主要面向工业设备中的开关电源、光伏逆变器及电动汽车充电站等高增长领域。

BOM成本直降30%!贸泽首发高性价比AI处理器方案

在全球智能化转型加速的背景下,贸泽电子作为全球领先的电子元器件代理商,今日宣布正式开放Renesas Electronics RZ/V2N嵌入式AI微处理器的全球供货。这款采用创新架构的处理器专为视觉AI应用场景深度优化,通过集成式异构计算方案,成功在算力密度与能效比之间取得突破性平衡,其15 TOPS的AI推理性能搭配10 TOPS/W的能效表现,为工业视觉、移动机器人等边缘计算领域带来全新解决方案。