探讨智能语音技术的发展与当下热门语音产品

发布时间:2016-11-30 阅读量:1191 来源: 发布人:

语音技术在计算机领域中的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS),让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。

让计算机说话需要用到语音合成技术,其核心是文语转换技术(Text to Speech),语音合成甚至已经应用到汽车的信息系统上,车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音在车内收听。



与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。

在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。

大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。

同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。

上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。

我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。

进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。

1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。自此,我国语音识别技术进入了一个新的发展阶段。

自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。

2009年前后,大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,提高了解码的速度,为语音识别的实时应用提供了基础。

随着互联网的快速发展,以及手机等移动终端的普及应用,可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。

在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。

现如今,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。

热门的智能语音产品

百度语音

百度语音一般指百度语音搜索,是百度公司为广大互联网用户提供的一种基于语音的搜索服务,用户可以使用多种客户端发起语音搜索,服务器端根据用户的发出的语音请求,进行语音识别然后将检索结果反馈给用户。

百度语音搜索不仅提供一般的通用语音搜索服务,还有针对地图用户制定的特色搜索服务,后续还会有更多的个性化搜索和识别服务出现。

目前百度语音搜索以移动客户端为主要平台,内嵌于百度的其他产品中,比如掌上百度,百度手机地图等,用户可以在使用这些客户端产品的同时体验语音搜索,支持全部主流的手机操作系统。

Google Now

Google Now是谷歌随安卓4.1系统同时推出的一款应用,它可以了解用户的各种习惯和正在进行的动作,并利用所了解的资料来为用户提供相关信息。

今年3月24日,谷歌宣布Google Now语音服务正式登陆Windows和Mac桌面版Chrome浏览器。

Google Now的应用会更加方便用户收取电子邮件,当你接收到新邮件时,它就会自动弹出以便你查看。Google Now还推出了步行和行车里程记录功能,这个计步器功能可通过Android设备的传感器来统计用户每月行驶的里程,包括步行和骑自行车的路程。

此外,Google Now增加了一些旅游和娱乐特色功能,包括:汽车租赁、演唱会门票和通勤共享方面的卡片;公共交通和电视节目的卡片进行改善,这些卡片现在可以听音识别音乐和节目信息;用户可以为新媒体节目的开播设定搜索提醒,同时还可以接收实时NCAA(美国大学体育协会)橄榄球比分。

微软Cortana

Cortana是Windows Phone平台下的虚拟语音助手,由游戏《光晕》中Cortana的声优Jen Taylor配音,Cortana中文版又名“微软小娜”。

微软对Cortana的描述为“你手机上的私人助手,为你提供设置日历项、建议、进程等更多帮助”,它能够和你之间进行交互,并且尽可能的模拟人的说话语气和思考方式跟你进行交流。此外圆形的图标按钮会随着你手机的主题进行调整,如果说你设置了绿色的主题,那么Cortana就是绿色的图标。

此外,你能够通过开始屏幕或者设备上的搜索按钮来呼出Cortana,Cortana采用一问一答的方式,它只有在你咨询它的时候才会显示足够多的信息。

siri

Siri技术来源于美国国防部高级研究规划局所公布的CALO计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件Siri虚拟个人助理。

Siri成立于2007年,最初是以文字聊天服务为主,随后通过与语音识别厂商Nuance合作,Siri实现了语音识别功能。2010年,Siri被苹果以2亿美金收购。

Siri成为苹果公司在其产品iPhone和iPad Air上应用的一项语音控制功能。Siri可以令iPhone和iPad Air变身为一台智能化机器人。Siri支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。
相关资讯
贸泽电子发布智能家居开发平台,集成Arduino/NXP/Qorvo创新方案

为加速智能家居的普及与创新,全球知名电子元器件分销商贸泽电子重磅推出全新的 “智能家居资源中心”。该中心汇聚海量精选技术资料,为工程师打造下一代自动化与互联解决方案提供强力支持。随着智能恒温器、冰箱等物联网设备深入家庭生活,用户对个性化体验、能源效率与安心安全的需求激增。工程师们正面临着融合如三频通讯、Matter协议等前沿技术以构建无缝智能生态系统的挑战。贸泽的资源中心正是为此而生,致力于简化设计流程,将未来互联家庭的愿景变为现实。

思特威突破车载视觉"卡脖子"难题:首颗全流程国产3MP CIS量产

在全球汽车产业加速迈向智能化、网联化的浪潮中,高可靠、高性能的车载图像感知系统扮演着至关重要的角色。环视摄像头作为感知车辆周边环境的“眼睛”,其性能直接关系到驾驶安全与辅助驾驶功能的体验。2025年7月,思特威(上海)电子科技股份有限公司(股票代码:688213)正式发布Automotive Sensor (AT) Series系列的重要成员——SC326AT。这不仅是一款3MP(300万像素)高性能车规级CMOS图像传感器新品,更是思特威车载系列中首款实现设计、制造到量产全流程国产化的里程碑式产品。它基于思特威自研的CarSens®-XR工艺平台打造,在核心成像性能、环境适应性及系统集成度上均实现显著突破,直指高端环视应用的痛点,为提升智能汽车感知系统的韧性与竞争力提供了强有力的国产化支撑。

苹果芯片版图再扩张!7款自研芯片曝光,深化垂直整合战略

根据近期知名开发者社区曝光的最新信息显示,苹果正在加速其芯片自研进程,计划推出至少7款尚未对外公开的全新芯片设计。这一雄心勃勃的计划涵盖了其核心终端产品线,包括应用于未来iPhone的A19系列、下一代Mac的M5系列、新款Apple Watch处理器、第二代5G调制解调器C2,以及一款具备突破性集成设计的通信芯片Proxima。多项证据表明,苹果正加速推进全产品线核心处理器代际更新,深化垂直整合优势。

轴向电阻SMD化!Vishay AC03-CS WSZ系列降本增效解决方案详解

在现代电子制造业,提升自动化装配效率与降低生产成本是企业持续追求的目标。通孔元件(THT)在贴装环节往往需要额外的插件工序,相较表面贴装元件(SMD)效率较低。针对这一行业痛点,全球领先的电子元件制造商威世科技(Vishay Intertechnology, Inc., NYSE: VSH)宣布其广受欢迎的AC03-CS系列轴向绕线安全电阻推出创新的WSZ引线版本选件。这一设计革新使得原本需要插件工艺的轴向电阻能够无缝融入标准的SMT(表面贴装技术)生产线,显著缩短装配周期并有效控制整体制造成本。本次升级为汽车电子、工业驱动及智能能源等领域的关键安全电路设计提供了兼具性能与成本效益的全新解决方案。

Meta豪掷2亿美元争抢AI顶尖人才,超级智能团队组建引发行业震动​

全球人工智能人才争夺战已进入白热化阶段。Meta公司近期以突破行业纪录的薪酬方案招募前苹果公司AI模型研发负责人庞如明(Ruoming Pang),据悉该方案总价值逾2亿美元,包含现金奖励与长期股权激励。此举标志着科技巨头对顶尖AI人才的投入达到前所未有的量级。