浅谈穿戴设备的语音/手势识别技术

发布时间：2015-05-7 阅读量：1220 来源: 我爱方案网作者:

【导读】不知道大家发现没有，最近微信有个语音登陆功能，说到底这也是语音识别技术的应用之一，语音识别技术也常见用于穿戴式装置。由于穿戴式装置可随身配戴，因而成为人们感知与控制周遭联网装置的最佳利器，开发商正积极采纳先进的语音或手势辨识技术，为使用者创造更便利的智慧联网应用体验。

根据2014年6月19日美国Google I/O开发者大会中播放的微电影，可以看见未来人类生活将处处充满网路，从电器至一般家庭用品，现在连门锁都可以透过穿戴装置来开关。Google希望能达成生活中随时都有穿戴装置的愿景，并以云端服务为核心，使用统一系统，让该应用能扩展到使用者所有的萤幕与家用设备当中。

利用Android可让使用者的所有生活用品都迈向智慧化与网路化，这就是最典型直观的智慧联网范例。当文化越来越进步，科技越来越发达，人类的需求就会从如何生存转变为如何活得更好更幸福，因此目前一切技术的发展都是为了让人类活得更便利、更舒适；而要让生活变得更便利的要素就是发展穿戴式技术，让生活中的一切用品都能连上网路。

穿戴式装置让生活更便利

过去人们操作电脑时，须使用滑鼠与键盘做为输入装置；而操作电器时，则大都须要亲自触控其按钮，有些电器具备遥控器可远端操作，如电视、冷气机等，但对老年人与小孩而言，遥控器的操作往往过于复杂而无法直观使用。因此，透过穿戴式装置来输入、控制生活的日用品，就可以让小孩与老年人都轻松使用，甚至不需要太多笨重的硬体，只要一只手环，或是一副眼镜，就能处理生活中一切的需要。

根据资策会产业情报研究所的定义，“凡搭配特殊设计之配件与挂件，将3C产品或电子工具固定挂配于身上，提供更方便自由连续性使用的随身应用产品”可称之为穿戴式装置。

穿戴式装置能透过微机电系统(MEMS)的感测器，或是摄影机来撷取使用者发出的讯号，而这些讯号经由适当运算，可达到控制生活周遭家电用品的目的。

此处所指的运算是一种称为“讯号辨识”的技术，讯号辨识从前述的例子中可分为两类：使用摄影机接收影像讯号的图像辨识或物件辨识，以及MEMS感测器撷取人体运动资讯；另外也包含利用收音装置收取语音讯号的语音辨识技术，其应用如大家最熟悉的“Ok Google”。

由于不同的讯号有不同特性，因而能用以操作具特殊需求的生活用品，如家中的保险箱，即可利用语音讯号来控制。

因为每个人的说话速度、习惯、生理状况、性别、年龄、地域皆不同，所以语音讯号的差异性大能用来辨识使用者身分。此外，过去须要使用钥匙解锁，或是输入密码才能开启的生活用品，也可以透过语音辨识技术让使用者更为便利。

除此之外，需要遥控器控制的电器也往往因遥控器操作复杂，导致并非所有年龄层的使用者都易于使用。于是Logbar团队便开发Ring智慧戒指，使用者可利用该戒指在空中画出频道号码，将电视转至指定频道。

用户使用手环时，也可利用MEMS感测器侦测手部往左或往右移动，做出频道或是音量的增减，以简化原本遥控器的复杂操作。

上述所提讯号辨识技术的发展皆累积了一段时间，然而穿戴式装置的崛起，可帮助使用者从原先须到目标电器旁边才能控制电器，改为只要坐在原本位置并举起手臂在空中做手势或向手表下指令，便能控制电器用品。

分析人体资讯　语音/手势辨识技术便利实用

基于语音会因音高(妇女、儿童较短较薄；男人、老人较长较厚)、音质差异(每个人皆有特别的音质)有许多不同，所以语音辨识相关技术可以用在需要安全性保护的生活用品中。

人体在运动时，系利用杠杆原理，并透过肌肉收缩的方式来完成。手臂系统由手指、手腕、手肘、肩、肩带构成，手指的动作通常以抓、收、放为主；而手腕动作则以旋转为主，光是这些动作的排列组合就可定义出多种不同的手势指令。

语音辨识的流程(图1)，是先将输入讯号做前置处理，之后再做特征撷取，然后根据语言模型、辨识模型或样板做出辨识动作。语音辨识的常见技术有两个，一个是动态时间轴校准(Dyanmic Time Warping, DTW)，一个是隐藏式马可夫模型(Hidden Markov Model)。

图1　语音辨识基本流程

动态时间轴校准分为两阶段，其一为训练阶段，会先建立各辨识单元的样板；其二则是使用阶段，将输入语音的特征图样与各样板进行比对，最接近者即为辨识结果。这个方法虽然可以用在不同长度的图样比对，但是所得到的样板却无法反应语音讯号的差异性。

隐藏式马可夫模型的训练阶段是在建立各辨识单元之统计模型，第二阶段会先计算由各模型产生输入语音的机率大小，再取其最大者做为辨识结果。相较于动态时间轴校准技术，隐藏式马可夫模型能利用机率分布来描述语音的差异性，因此可得到较佳的辨识率，但模型训练与辨识演算法就复杂许多。跟语音辨识类似，手势影像辨识(图2)的第一阶段也是对输入资料的前处理，包含背景分离、肤色与边缘的侦测、手部定位、手掌侦测，以及此阶段最后的影像正规化。

图2　以影像辨识为基础的手势辨识演算法流程图

接着会进入辨识阶段，此处以阶层式时序记忆(Hierarchical Temporal Memory, HTM)演算法为例，该阶段系利用机器学习的方式，进行各类别手势模型的学习与辨识。HTM演算法以网路型态组成，包含四种性质的处理节点：

·感测节点(Sensor Node)

感测节点位于HTM网路最底端，能将感测到的资料转成能用的资料格式，并传到下一节点。

·HTM节点(HTM Node)

HTM节点是主要运算节点，可根据问题复杂度形成阶层网路架构，各HTM节点进行非监督式学习，并生成时序相近的不变性特征。

·HTM顶层节点(HTM Top Node)

HTM顶层节点位于网路最高阶位置，能将资料输入种类节点进行分类。

·种类节点(Category Node)

种类节点是一个监督式分类器，可辨识输入资料的类别。

以运动感测为基底的手势辨识方式，最常见的是使用加速度计(Accelerometer)、陀螺仪等微机电系统(MEMS)感测器。

加速度计又称为重力感测器(G-sensor)，可以提供线性加速度/位移的资讯。透过MEMS技术可将加速度计元件最小化。

近年来智慧型手机大都有包含此元件；穿戴装置如智慧手环、手表也都有加速度计，可做为移动轨迹的手势辨识应用。利用加速度计取得加速度值后，判断出一个轨迹动作的开始点及结束点，之后将讯号作处理动作，此处选用Hanning Filter来平滑化讯号并对讯号做正规化。

将讯号处理完的结果利用动态时间校正演算法做分类，再根据分类结果及加速度振幅大小来辨识出我们指定的指令动作。Hanning Filter可减少讯号转换过程及降低仪器震动所造成的误差。由于动态时间校正具有可以处理不同长度讯号的特性，所以适合用来辨识手势讯号，它的步骤如下：

首先从已知的分类讯号内，选一笔做为样本；接着将待比对序列输入时，与各类样本都做计算，找出最高相似性的样本，本步骤最为重要；最后再根据刚刚结果挑选相似性最高样本做为辨识结果。

穿戴式装置搭桥　有机运算愿景近在咫尺

在2015年国际消费性电子展(CES)中可以发现，智慧手表应用已经结合了汽车，而大陆业者采取低价策略，也加快高规智慧表的降价速度；Google也在最近宣布“完全自动驾驶的首度完整原型”会在加州开始测试。

由这些趋势可知，智慧联网已经悄悄从日常生活的电器用品，拓展到汽车产业；不过值得注意的是，智慧联网的安全性问题也将更被放大，特别是当骇客有机会远端控制用户的车辆或甚至锁住煞车时，后果是无法想像的。

近期的语音辨识热潮，让MEMS麦克风备受瞩目，其在联网汽车的应用领域占有着一席之地，此外，亚马逊(Amazon)近期推出的智慧家庭声控设备，也一举导入七颗MEMS麦克风，允许使用者在家中不同位置都可控制联网和影音操作的语音指令。当个人电脑的显示、储存、运算、输入输出等功能，由电视、家电、手机、汽车等智慧装置取代时，这样的智慧联网空间所需的人机介面，将会是穿戴式装置最能符合人们对便利性的期待。

目前市面上的智慧穿戴装置，多内建了加速度计与陀螺仪等惯性感测器，可以推断配戴者的动作，来发出控制指令。

如使用者将手往上举，便能开启房间电灯；手机来电时，点头便能开启扩音通话；或将食指放到嘴前，客厅的音响就会关闭。然而，往后穿戴装置的操作技术一定不仅限于上述所说的这几种，未来穿戴装置可能有机会或持续发展小面积触控、头部动作、眼球追踪、四肢动作、投影触控、脑波控制等功能。

体感介面为上述操作技术的共通点，特别是在影像类型的手势辨识中。

如工研院已利用智慧眼镜上的3D摄影机来做感测，创造出空中触控虚拟画面的操作方式，智慧眼镜商SpaceGlasses也在2014年推出内建空中手势辨识技术的3D智慧眼镜。

英特尔(Intel)也在2014年发表RealSense3D摄影机技术，让个人电脑、平板电脑等资讯产品，达成脸部辨识、情绪追踪、十指空中手势辨识等功能。凭藉Intel在业界的力量，未来每台个人电脑都有可能会直接内建此技术，以大幅降低辨识空中手势技术的成本。

穿戴装置上的惯性感测器可以感知人类的四肢动作，而头戴装置上的3D摄影机能侦测手势动作；另外，靠近头部的穿戴装置所内建的麦克风则可以接收语音指令。

当穿戴装置已能感知人类所有身体动作的时候，人类最基本的自然讯号：口语语言与身体语言便会成为最后的人机介面。

当穿戴装置以上述最自然的方式发出控制指令，操弄任何智慧联网上的装置，原本要坐在电脑前的行为，只要挥手、说话就能达成，这样的情境称为“有机运算”。 “有机运算”是指人类身边大量具感测器的智慧装置，其具自动感测数据、互相连结、主动运算与分析等功能，还能自动执行相关指令，有如人体的运作模式；而穿戴装置在这样的情境中将扮演关键的人机介面角色。虽然这样的未来还有许多技术尚待克服，但相信凭着目前资通讯科技(ICT)产业强大的技术研发能力，定能加速实现。

(本文作者任职于资策会智通所)

推荐阅读：

【get技能】增强设备技能的传感器融合解析

无边框手机大热背后：国产手机市场缺乏创新

从女司机被打事件深度分析行车记录仪方案