浅谈穿戴设备的语音/手势识别技术

发布时间:2015-05-7 阅读量:1167 来源: 我爱方案网 作者:

【导读】不知道大家发现没有,最近微信有个语音登陆功能,说到底这也是语音识别技术的应用之一,语音识别技术也常见用于穿戴式装置。由于穿戴式装置可随身配戴,因而成为人们感知与控制周遭联网装置的最佳利器,开发商正积极采纳先进的语音或手势辨识技术,为使用者创造更便利的智慧联网应用体验。

根据2014年6月19日美国Google I/O开发者大会中播放的微电影,可以看见未来人类生活将处处充满网路,从电器至一般家庭用品,现在连门锁都可以透过穿戴装置来开关。Google希望能达成生活中随时都有穿戴装置的愿景,并以云端服务为核心,使用统一系统,让该应用能扩展到使用者所有的萤幕与家用设备当中。

利用Android可让使用者的所有生活用品都迈向智慧化与网路化,这就是最典型直观的智慧联网范例。当文化越来越进步,科技越来越发达,人类的需求就会从如何生存转变为如何活得更好更幸福,因此目前一切技术的发展都是为了让人类活得更便利、更舒适;而要让生活变得更便利的要素就是发展穿戴式技术,让生活中的一切用品都能连上网路。

穿戴式装置让生活更便利

过去人们操作电脑时,须使用滑鼠与键盘做为输入装置;而操作电器时,则大都须要亲自触控其按钮,有些电器具备遥控器可远端操作,如电视、冷气机等,但对老年人与小孩而言,遥控器的操作往往过于复杂而无法直观使用。因此,透过穿戴式装置来输入、控制生活的日用品,就可以让小孩与老年人都轻松使用,甚至不需要太多笨重的硬体,只要一只手环,或是一副眼镜,就能处理生活中一切的需要。

根据资策会产业情报研究所的定义,“凡搭配特殊设计之配件与挂件,将3C产品或电子工具固定挂配于身上,提供更方便自由连续性使用的随身应用产品”可称之为穿戴式装置。

穿戴式装置能透过微机电系统(MEMS)的感测器,或是摄影机来撷取使用者发出的讯号,而这些讯号经由适当运算,可达到控制生活周遭家电用品的目的。

此处所指的运算是一种称为“讯号辨识”的技术,讯号辨识从前述的例子中可分为两类:使用摄影机接收影像讯号的图像辨识或物件辨识,以及MEMS感测器撷取人体运动资讯;另外也包含利用收音装置收取语音讯号的语音辨识技术,其应用如大家最熟悉的“Ok Google”。

由于不同的讯号有不同特性,因而能用以操作具特殊需求的生活用品,如家中的保险箱,即可利用语音讯号来控制。

因为每个人的说话速度、习惯、生理状况、性别、年龄、地域皆不同,所以语音讯号的差异性大能用来辨识使用者身分。此外,过去须要使用钥匙解锁,或是输入密码才能开启的生活用品,也可以透过语音辨识技术让使用者更为便利。

除此之外,需要遥控器控制的电器也往往因遥控器操作复杂,导致并非所有年龄层的使用者都易于使用。于是Logbar团队便开发Ring智慧戒指,使用者可利用该戒指在空中画出频道号码,将电视转至指定频道。

用户使用手环时,也可利用MEMS感测器侦测手部往左或往右移动,做出频道或是音量的增减,以简化原本遥控器的复杂操作。

上述所提讯号辨识技术的发展皆累积了一段时间,然而穿戴式装置的崛起,可帮助使用者从原先须到目标电器旁边才能控制电器,改为只要坐在原本位置并举起手臂在空中做手势或向手表下指令,便能控制电器用品。

分析人体资讯 语音/手势辨识技术便利实用

基于语音会因音高(妇女、儿童较短较薄;男人、老人较长较厚)、音质差异(每个人皆有特别的音质)有许多不同,所以语音辨识相关技术可以用在需要安全性保护的生活用品中。

人体在运动时,系利用杠杆原理,并透过肌肉收缩的方式来完成。手臂系统由手指、手腕、手肘、肩、肩带构成,手指的动作通常以抓、收、放为主;而手腕动作则以旋转为主,光是这些动作的排列组合就可定义出多种不同的手势指令。

语音辨识的流程(图1),是先将输入讯号做前置处理,之后再做特征撷取,然后根据语言模型、辨识模型或样板做出辨识动作。语音辨识的常见技术有两个,一个是动态时间轴校准(Dyanmic Time Warping, DTW),一个是隐藏式马可夫模型(Hidden Markov Model)。

穿戴式装置勾搭语音/手势识别技术  开启智慧新生活
图1 语音辨识基本流程

动态时间轴校准分为两阶段,其一为训练阶段,会先建立各辨识单元的样板;其二则是使用阶段,将输入语音的特征图样与各样板进行比对,最接近者即为辨识结果。这个方法虽然可以用在不同长度的图样比对,但是所得到的样板却无法反应语音讯号的差异性。

隐藏式马可夫模型的训练阶段是在建立各辨识单元之统计模型,第二阶段会先计算由各模型产生输入语音的机率大小,再取其最大者做为辨识结果。相较于动态时间轴校准技术,隐藏式马可夫模型能利用机率分布来描述语音的差异性,因此可得到较佳的辨识率,但模型训练与辨识演算法就复杂许多。跟语音辨识类似,手势影像辨识(图2)的第一阶段也是对输入资料的前处理,包含背景分离、肤色与边缘的侦测、手部定位、手掌侦测,以及此阶段最后的影像正规化。

穿戴式装置勾搭语音/手势识别技术  开启智慧新生活
图2 以影像辨识为基础的手势辨识演算法流程图
接着会进入辨识阶段,此处以阶层式时序记忆(Hierarchical Temporal Memory, HTM)演算法为例,该阶段系利用机器学习的方式,进行各类别手势模型的学习与辨识。HTM演算法以网路型态组成,包含四种性质的处理节点:

·感测节点(Sensor Node)

感测节点位于HTM网路最底端,能将感测到的资料转成能用的资料格式,并传到下一节点。

·HTM节点(HTM Node)

HTM节点是主要运算节点,可根据问题复杂度形成阶层网路架构,各HTM节点进行非监督式学习,并生成时序相近的不变性特征。

·HTM顶层节点(HTM Top Node)

HTM顶层节点位于网路最高阶位置,能将资料输入种类节点进行分类。

·种类节点(Category Node)

种类节点是一个监督式分类器,可辨识输入资料的类别。

以运动感测为基底的手势辨识方式,最常见的是使用加速度计(Accelerometer)、陀螺仪等微机电系统(MEMS)感测器。

加速度计又称为重力感测器(G-sensor),可以提供线性加速度/位移的资讯。透过MEMS技术可将加速度计元件最小化。

近年来智慧型手机大都有包含此元件;穿戴装置如智慧手环、手表也都有加速度计,可做为移动轨迹的手势辨识应用。利用加速度计取得加速度值后,判断出一个轨迹动作的开始点及结束点,之后将讯号作处理动作,此处选用Hanning Filter来平滑化讯号并对讯号做正规化。

将讯号处理完的结果利用动态时间校正演算法做分类,再根据分类结果及加速度振幅大小来辨识出我们指定的指令动作。Hanning Filter可减少讯号转换过程及降低仪器震动所造成的误差。由于动态时间校正具有可以处理不同长度讯号的特性,所以适合用来辨识手势讯号,它的步骤如下:

首先从已知的分类讯号内,选一笔做为样本;接着将待比对序列输入时,与各类样本都做计算,找出最高相似性的样本,本步骤最为重要;最后再根据刚刚结果挑选相似性最高样本做为辨识结果。

穿戴式装置搭桥 有机运算愿景近在咫尺

在2015年国际消费性电子展(CES)中可以发现,智慧手表应用已经结合了汽车,而大陆业者采取低价策略,也加快高规智慧表的降价速度;Google也在最近宣布“完全自动驾驶的首度完整原型”会在加州开始测试。

由这些趋势可知,智慧联网已经悄悄从日常生活的电器用品,拓展到汽车产业;不过值得注意的是,智慧联网的安全性问题也将更被放大,特别是当骇客有机会远端控制用户的车辆或甚至锁住煞车时,后果是无法想像的。

近期的语音辨识热潮,让MEMS麦克风备受瞩目,其在联网汽车的应用领域占有着一席之地,此外,亚马逊(Amazon)近期推出的智慧家庭声控设备,也一举导入七颗MEMS麦克风,允许使用者在家中不同位置都可控制联网和影音操作的语音指令。当个人电脑的显示、储存、运算、输入输出等功能,由电视、家电、手机、汽车等智慧装置取代时,这样的智慧联网空间所需的人机介面,将会是穿戴式装置最能符合人们对便利性的期待。

目前市面上的智慧穿戴装置,多内建了加速度计与陀螺仪等惯性感测器,可以推断配戴者的动作,来发出控制指令。

如使用者将手往上举,便能开启房间电灯;手机来电时,点头便能开启扩音通话;或将食指放到嘴前,客厅的音响就会关闭。然而,往后穿戴装置的操作技术一定不仅限于上述所说的这几种,未来穿戴装置可能有机会或持续发展小面积触控、头部动作、眼球追踪、四肢动作、投影触控、脑波控制等功能。

体感介面为上述操作技术的共通点,特别是在影像类型的手势辨识中。

如工研院已利用智慧眼镜上的3D摄影机来做感测,创造出空中触控虚拟画面的操作方式,智慧眼镜商SpaceGlasses也在2014年推出内建空中手势辨识技术的3D智慧眼镜。

英特尔(Intel)也在2014年发表RealSense3D摄影机技术,让个人电脑、平板电脑等资讯产品,达成脸部辨识、情绪追踪、十指空中手势辨识等功能。凭藉Intel在业界的力量,未来每台个人电脑都有可能会直接内建此技术,以大幅降低辨识空中手势技术的成本。

穿戴装置上的惯性感测器可以感知人类的四肢动作,而头戴装置上的3D摄影机能侦测手势动作;另外,靠近头部的穿戴装置所内建的麦克风则可以接收语音指令。

当穿戴装置已能感知人类所有身体动作的时候,人类最基本的自然讯号:口语语言与身体语言便会成为最后的人机介面。

当穿戴装置以上述最自然的方式发出控制指令,操弄任何智慧联网上的装置,原本要坐在电脑前的行为,只要挥手、说话就能达成,这样的情境称为“有机运算”。 “有机运算”是指人类身边大量具感测器的智慧装置,其具自动感测数据、互相连结、主动运算与分析等功能,还能自动执行相关指令,有如人体的运作模式;而穿戴装置在这样的情境中将扮演关键的人机介面角色。虽然这样的未来还有许多技术尚待克服,但相信凭着目前资通讯科技(ICT)产业强大的技术研发能力,定能加速实现。

(本文作者任职于资策会智通所)

推荐阅读:

【get技能】增强设备技能的传感器融合解析

无边框手机大热背后:国产手机市场缺乏创新

从女司机被打事件深度分析行车记录仪方案
相关资讯
“中国芯”逆袭时刻:新唐携7大新品打造全场景AIoT解决方案矩阵

在万物互联与智能化浪潮席卷全球的今天,新唐科技以颠覆性创新奏响行业强音。4月25日,这场历时10天、横跨七城的科技盛宴在深圳迎来高潮,以"创新驱动AI、新能源与车用科技"为主题,汇聚全球顶尖行业领袖,首次公开七大核心产品矩阵,展现从芯片设计到智能生态的全链条创新能力,为半导体产业转型升级注入新动能。

半导体先进制程技术博弈:台积电、英特尔与三星的差异化路径

在2025年北美技术研讨会上,台积电正式宣布其A14(1.4nm)工艺将于2028年量产,并明确表示无需依赖ASML最新一代High NA EUV光刻机。这一决策背后,折射出全球半导体巨头在技术路线、成本控制和市场竞争中的深层博弈。

嵌入式主板EMB-3128:轻量级边缘计算的工业级解决方案

随着AIoT技术的快速落地,智能设备对高性能、低功耗嵌入式硬件的需求持续攀升。华北工控推出的EMB-3128嵌入式主板,搭载Intel® Alder Lake-N系列及Core™ i3-N305处理器,以高能效比设计、工业级可靠性及丰富的接口配置,成为轻量级边缘AI计算的理想选择。该主板支持DDR5内存、多模态扩展接口及宽温运行环境,可广泛应用于智能家居、工业自动化、智慧零售等场景,助力产业智能化升级。

从ASMI财报看行业趋势:AI芯片需求爆发如何重塑半导体设备市场?

作为全球半导体沉积设备领域的龙头企业,荷兰ASM国际(ASMI)近日发布2024年第一季度财报,展现强劲增长动能。财报显示,公司当季新增订单额达8.34亿欧元(按固定汇率计算),同比增长14%,显著超出市场预期的8.08亿欧元。这一表现主要受益于人工智能芯片制造设备需求激增与中国市场的战略性突破,同时反映出半导体产业技术迭代与地缘经济博弈的双重影响。

车规级SerDes国产替代提速:解析纳芯微NLS9116/NLS9246技术优势与市场潜力

随着汽车智能化加速,车载摄像头、激光雷达、显示屏等传感器数量激增,数据传输带宽需求呈指数级增长。传统国际厂商基于私有协议(如TI的FPD-Link、ADI的GMSL)垄断车载SerDes市场,导致车企供应链弹性不足、成本高企。2025年4月,纳芯微电子发布基于HSMT公有协议的全链路国产化SerDes芯片组(NLS9116加串器与NLS9246解串器),通过协议解耦、性能优化与供应链自主可控,为ADAS、智能座舱等场景提供高性价比解决方案,标志着国产车规级芯片从“跟跑”迈向“并跑” 。