微软最新AI系统!使用云端麦克风阵列,音频转录精度提升22.4%

发布时间:2019-09-18 阅读量:816 来源: 智东西 发布人: Jane

智东西消息,微软语音和对话研究小组的科学家最近研发了一个系统,利用内置于智能手机、笔记本电脑和平板电脑中的麦克风来提高音频质量。

 

这个系统通过智能硬件连接互联网,在云端形成临时的麦克风阵列,可以实时高精度转录音频。研究小组计划在Interspeech 2019年会议上发表相关的研究论文。

 

会议室的音频无法及时可靠地传达给远程参加会议的各方时,总会令人感到非常无奈。音响效果的差异和干扰总是导致线路另一端接收的音频清晰度降低。

 

接下来我们一起了解一下,微软设计的云端麦克风系统,是如何提高音频转录的精度和效率的。

 

微软最新AI系统1.jpg 

 

一、云端麦克风阵列提高音频精度

 

微软团队的解决方案是一个端到端系统,首先从不同的麦克风收集声音信号,然后进行波束成形,这种技术能使麦克风阵列对来自特定方向的声音更加敏感。

 

该系统的主要研究人员Takuya Yoshioka在博客中写道:“我们方法背后的核心思想是利用与会者通常携带到会议现场的笔记本电脑和智能手机等任何与互联网相连的设备,虚拟地在云端形成一个临时的麦克风阵列。”

 

由一个识别信号之间关系的模型进行编排。在波束形成过程中,信号被反馈到下游的语音识别模块,然后对它们进行合并、注释并发送回与会者。

 

据研究团队介绍,通过他们的方法,使用云端麦克风阵列,参加会议时人们可以使用已经带到会议现场的手机、笔记本电脑和平板电脑实时高精度转录音频,无需专用的硬件设备。

 

Takuya Yoshioka指出,这种方法在理论上要比执行上简单,因为不同设备之间的音频保真度存在很大差异,不同麦克风捕捉到的语音信号彼此并不一致。设备的数量及其相对位置在每次会议之间的不一致也增加了麦克风阵列的设计难度。

 

二、语音转录系统仍需进一步完善

 

研究人员报告说,在定性测试中,他们的人工智能系统在使用3个麦克风和7个麦克风的情况下,其性能分别比单设备系统高出14.8%和22.4%。

 

研发团队表示,他们的系统还不完善,偶尔会因为重叠的语音而出错。测试中,有10%的录音中包含不止一个说话者,这时语音转录的错误率为13.6%。

 

论文中Takuya Yoshioka和他的同事写道:“我们将设备分布在放假各处,获得了更好的空间覆盖率,研究显示了多个异步麦克风在真实场景中满足转录的有效性。”

 

结语:语音转录技术提升还需加大研发投入

 

微软在语音转录方面的研究迎合了市场的需求。去年夏天,微软在语音转录方面的研究已经应用在了微软365上,可以自主将语音转换为文本,与会者还能通过视频记录转换文本,使录音文件的文本转录变得更加简单便捷。

 

几个月后,微软在又OneDrive和SharePoint中推出了音频和视频文件的自动转录功能,进一步提升了文本转换的效率。

 

语音文本的实时转录,在办公和学习场景中都有很强的实用性。目前,语音转录系统还不完善,转录的准确性还有待提升,在数据、算法等方面还需要更多的研发投入,以满足消费者在不同场景下的需求。

 

论文链接:https://www.microsoft.commeetingtranscriptionsusingvirtualmicrophonearrays.pdf

 

原文来自:VentureBeat

相关资讯
半导体产业升级战:三星电子新一代1c DRAM量产布局解析

在全球半导体产业加速迭代的背景下,三星电子日前披露了其第六代10纳米级DRAM(1c DRAM)的产能规划方案。根据产业研究机构TechInsights于2023年8月22日发布的行业简报,这家韩国科技巨头正在同步推进华城厂区和平泽P4基地的设备升级工作,预计将于2023年第四季度形成规模化量产能力。这项技术的突破不仅标志着存储芯片制程进入新纪元,更将直接影响下一代高带宽存储器(HBM4)的市场格局。

蓝牙信道探测技术落地:MOKO联手Nordic破解室内定位三大痛点

全球领先的物联网设备制造商MOKO SMART近期推出基于Nordic Semiconductor新一代nRF54L15 SoC的L03蓝牙6.0信标,标志着低功耗蓝牙(BLE)定位技术进入高精度、长续航的新阶段。该方案集成蓝牙信道探测(Channel Sounding)、多协议兼容性与超低功耗设计,覆盖室内外复杂场景,定位误差率较传统方案降低60%以上,同时续航能力突破10年,为智慧城市、工业4.0等场景提供基础设施支持。

财报季再现黑天鹅!ADI营收超预期为何股价暴跌5%?

半导体行业风向标企业亚德诺(ADI)最新财报引发市场深度博弈。尽管公司第三财季营收预期上修至27.5亿美元,显著超出市场共识,但受关税政策驱动的汽车电子产品需求透支风险显露,致使股价单日重挫5%。这一背离现象揭示了当前半导体产业面临的复杂生态:在供应链重构与政策扰动交织下,短期业绩爆发与长期可持续增长之间的矛盾日益凸显。

全球可穿戴腕带市场首季激增13%,生态服务成决胜关键

根据国际权威市场研究机构Canalys于5月23日发布的调研报告,2025年第一季度全球可穿戴腕带设备市场呈现显著增长态势,总出货量达到4660万台,较去年同期增长13%。这一数据表明,消费者对健康监测、运动管理及智能互联设备的需求持续升温,行业竞争格局亦同步加速重构。

RP2350 vs STM32H7:性能翻倍,成本减半的MCU革新之战

2025年5月23日,全球领先的半导体与电子元器件代理商贸泽电子(Mouser Electronics)宣布,正式开售Raspberry Pi新一代RP2350微控制器。作为RP2040的迭代升级产品,RP2350凭借双核异构架构(Arm Cortex-M33 + RISC-V)、硬件级安全防护及工业级性价比,重新定义了中高端嵌入式开发场景的技术边界。该芯片通过多架构动态切换、可编程I/O扩展及4MB片上存储等创新设计,解决了传统微控制器在实时响应能力、跨生态兼容性与安全成本矛盾上的核心痛点,为工业自动化、消费电子及边缘AI设备提供了更具竞争力的底层硬件方案。