麦克风阵列技术之后智能语音的主战场在哪里？

发布时间：2017-01-25 阅读量：943 来源: 我爱方案网作者: jiangliu

消费级麦克风阵列的兴起得益于语音交互的市场高速发展，解决了远距离语音识别的问题，保证真实场景下的语音识别率，由于这种无可替代的特性，使得麦克风阵列与科大讯飞一起，成为了2016年智能语音行业关注的焦点。随着物联网、4G、大数据和云计算的提出与落地，以提升用户体验为口号的智能语音将继续以火热之姿占据2017人们的主视线，这一次，智能语音技术的主战场又在哪里呢？

语音技术大规模爆发

语音进入大众视野已有许多年历史，事实上，Siri早在2011年就已经发布，当时国内也有不少跟随者，为什么5年之后的今天语音才进入爆发期呢？最关键的原因在于：

1、技术进入成熟可用阶段。当识别率只有90%的时候，语音就会被吐槽为玩具，然而，随着深度学习技术被引入语音之中，语音技术就实现了从90%到99%的跨越。百度有基于百度大脑深度学习技术的Deep-Speed技术，讯飞有“讯飞超脑”，搜狗也与清华大学联合建立人工智能实验室，人工智能驱动语音技术走向成熟，变得可用，是语音技术今天爆发的第一个背景。

2、4G网络普及速度超预期。不论是Siri、度秘还是语音输入法，要能准确、快速识别出语音的前提是终端要接入网络，并且要高速网络，4G网络在最近两三年的普及速度超过了所有人的预期，5G商用也越来越近了，高速的网络环境给语音提供了便利的基础设施。

3、大数据和云计算普及应用。人工智能算法生效的前提是对海量数据进行机器学习，同时要通过云端大规模集群进行并发式计算。语音技术需要对大量的语料进行计算，大数据和云计算在这几年成为互联网基础设施，成为语音技术爆发的又一个前提。

4、语音应用场景大幅增加。这几年，后移动互联网时代迎来了几波潮流：O2O、智能硬件(智能汽车、智能家居、智能可穿戴等等)还有互联网+，这些场景给语音提供了大量的应用场景。

语音爆发在即，开发者并不具备研发语音底层技术的能力，但可以将巨头开放的语音技术与自身业务紧密结合，成为语音技术的应用者。市面上有不少语音开放平台，有的收费、有的免费，现在最普及的语音开放平台，来自于百度。百度语音平台在2013年11月正式开放，在当时我的看法是“百度语音开放可以成为推动这一市场蓬勃兴起的催化剂”，现在看来这是对的。

语音大战新的主战场在哪里？

近年来，随着人工智能风口的涌入，语音技术作为人机交互最自然的方式，亦备受行业关注，与之相关的技术也成为行业研究的新话题不过，语音技术进入爆发期之前，还有许多应用空间，开发者有复杂多样的需求，麦克风阵列技术虽然解决了远距离声控问题，但是基本的语音技术还有许多难点要克服，除了抗噪、口音两大问题之外，语音接下来的关键竞争点在于：

1、语音唤醒技术。

我们通过“Hey Siri”“Ok Google”唤醒语音助手，这让语音助手随时待命，不过对移动设备来说有较高的功耗压力(Google Home和Amazon Echo音箱一直插电，不用考虑功耗问题)，还有就是唤醒准确率存在问题，要么手机听不到，要么误判。还有就是唤醒的语句固定、不能区分用户身份，体验不够好。百度语音开放平台三周年时选择开放唤醒二期技术，功耗是友商的三分之一，唤醒准确率达95%，支持“茄子”启动拍照这样的自定义唤醒词，相信之后还会引入声纹识别技术区别身份。

2、远场语音交互。

现在语音交互技术对人与设备之间的距离有要求，要“对着手机说”，这其实是很傻的，我们在生活中与人对话，可不会距离这么近。在家里我们要控制电视机，还得对着遥控板说。远场语音交互技术解决的就是这个问题，它让机器可以听到几米外的人说的话，挑战也很大，有回音，有噪音，有衰减，百度已经自主研发了支持3-5米的远场语音技术，这意味着之后我们可以睡觉时让热水器启动，或者坐在沙发上直接对着电视发号施令了。

3、语音合成技术。

现在机器说话都很死板，我们很容易听出来一段话是人还是机器说的。接下来语音合成技术的关键是，让机器说话声音更像真人，不只是“音色”接近真人，而是更有情感，抑扬顿挫、饱含深情。百度语音开放平台基于大数据和深度学习建模方式，在情感合成上有较好的表现，语音开放平台增加的一个新能力就是语音合成技术。

4、长语音识别。

输入一大段话的识别，过去对机器来说很有难度，涉及到断句等诸多方面，现在输入法，包括大会上演讲者的声音识别都有不错的表现，这表明长语音识别技术正趋于成熟。不过，要实现同声传译、用语音发邮件、写文章，甚至进行会议纪要，短期内还是很困难的，李彦宏、王小川等大佬们的说法也是“未来会取代同声传译”。当然，随着长语音识别技术的成熟，接下来语音还有更多应用场景，比如智能客服、内容纪要等等，取代同声传译不会这么快，但是最终一定会。

5、语义理解技术。

语义理解能力进一步提升，中文博大精深，很多话文字一样，不同场景表达意思不一样，语音技术要跟场景结合去理解语义，还要结合上下文。甚至要跟别的智能技术结合去理解，比如用户可能会指着一个物体说“请问它的英文怎么说”，只有语音技术就解决不了这样的交互，还得有图像识别技术;再比如用户会问“我们这里的天气怎么样”，这需要LBS技术的配合。总之，基于场景、结合人工智能综合技术的语义理解，可能会是语音技术接下来攻克的重点。

这些语音技术开始于麦克风阵列之前，但至今还未得到最佳的解决方式。因此，2017年，智能语音技术的本质还是要回归这些基础技术。

相关资讯

RSA240电流检测芯片：突破-5V~100V宽压采集的国产解决方案

在工业自动化、新能源储能及多节电池管理系统中，高精度电流检测是保障系统安全与能效的核心环节。传统检测方案常受限于共模电压范围窄、抗浪涌能力弱、温漂误差大等痛点。国产RSA240系列电流检测芯片的推出，以**-5V~100V超宽共模输入范围和0.1%级增益精度**，为高压场景提供了突破性解决方案。

TMR134x磁开关芯片：高精度液位测量的工业级解决方案

在工业4.0浪潮推动下，液位测量作为过程控制的核心环节，其精度与可靠性直接影响化工、能源、汽车等关键领域的生产安全。传统霍尔传感器受限于功耗高、温漂大、响应慢等瓶颈，难以满足智能设备对实时性与稳定性的严苛要求。多维科技推出的TMR134x磁开关传感器芯片，通过隧道磁阻（TMR）技术突破传统局限，为高精度液位监测提供新一代解决方案。

英飞凌300mm GaN技术实现突破，2025年Q4交付客户样品

英飞凌科技股份公司近日宣布，其基于300mm（12英寸）晶圆的氮化镓（GaN）功率半导体量产技术已取得实质性突破，相关生产流程全面步入正轨。根据规划，首批工程样品将于2025年第四季度交付核心客户，标志着英飞凌成为全球首家在现有大规模制造体系内实现300mm GaN工艺集成的IDM（垂直整合制造）厂商。

AI浪潮推高日本芯片设备销量，2026年有望突破5万亿日元大关

日本半导体制造装置协会（SEAJ）7月3日发布修订报告，预计2025年度（2025年4月-2026年3月）日本半导体设备销售额将达48,634亿日元，同比增长2.0%，连续第二年刷新历史纪录。2024年度销售额同比暴涨29.0%至47,681亿日元，首次突破4万亿日元大关。更关键的是，2026年度销售额预计跃升至53,498亿日元（约合5.3万亿日元），年增10.0%，成为史上首个跨越5万亿日元大关的年度；2027年将进一步增长至55,103亿日元，实现连续第四年创新高。

2025年Q2中国智能手机市场：华为以12%增速重登榜首，补贴政策缩减或成下半年变数

市场研究机构Counterpoint Research最新报告显示，2025年第二季度中国智能手机市场同比小幅增长1.5%。这一温和回升主要由华为与苹果两大品牌驱动，其中华为以12%的同比增速领跑市场，时隔四年重回季度出货量第一宝座，而vivo则以9%的跌幅成为前五厂商中唯一下滑品牌。

麦克风阵列技术之后 智能语音的主战场在哪里？

麦克风阵列技术之后智能语音的主战场在哪里？