【导读】不知道大家发现没有,最近微信有个语音登陆功能,说到底这也是语音识别技术的应用之一,语音识别技术也常见用于穿戴式装置。由于穿戴式装置可随身配戴,因而成为人们感知与控制周遭联网装置的最佳利器,开发商正积极采纳先进的语音或手势辨识技术,为使用者创造更便利的智慧联网应用体验。
根据2014年6月19日美国Google I/O开发者大会中播放的微电影,可以看见未来人类生活将处处充满网路,从电器至一般家庭用品,现在连门锁都可以透过穿戴装置来开关。Google希望能达成生活中随时都有穿戴装置的愿景,并以云端服务为核心,使用统一系统,让该应用能扩展到使用者所有的萤幕与家用设备当中。
利用Android可让使用者的所有生活用品都迈向智慧化与网路化,这就是最典型直观的智慧联网范例。当文化越来越进步,科技越来越发达,人类的需求就会从如何生存转变为如何活得更好更幸福,因此目前一切技术的发展都是为了让人类活得更便利、更舒适;而要让生活变得更便利的要素就是发展穿戴式技术,让生活中的一切用品都能连上网路。
穿戴式装置让生活更便利
过去人们操作电脑时,须使用滑鼠与键盘做为输入装置;而操作电器时,则大都须要亲自触控其按钮,有些电器具备遥控器可远端操作,如电视、冷气机等,但对老年人与小孩而言,遥控器的操作往往过于复杂而无法直观使用。因此,透过穿戴式装置来输入、控制生活的日用品,就可以让小孩与老年人都轻松使用,甚至不需要太多笨重的硬体,只要一只手环,或是一副眼镜,就能处理生活中一切的需要。
根据资策会产业情报研究所的定义,“凡搭配特殊设计之配件与挂件,将3C产品或电子工具固定挂配于身上,提供更方便自由连续性使用的随身应用产品”可称之为穿戴式装置。
穿戴式装置能透过微机电系统(MEMS)的感测器,或是摄影机来撷取使用者发出的讯号,而这些讯号经由适当运算,可达到控制生活周遭家电用品的目的。
此处所指的运算是一种称为“讯号辨识”的技术,讯号辨识从前述的例子中可分为两类:使用摄影机接收影像讯号的图像辨识或物件辨识,以及MEMS感测器撷取人体运动资讯;另外也包含利用收音装置收取语音讯号的语音辨识技术,其应用如大家最熟悉的“Ok Google”。
由于不同的讯号有不同特性,因而能用以操作具特殊需求的生活用品,如家中的保险箱,即可利用语音讯号来控制。
因为每个人的说话速度、习惯、生理状况、性别、年龄、地域皆不同,所以语音讯号的差异性大能用来辨识使用者身分。此外,过去须要使用钥匙解锁,或是输入密码才能开启的生活用品,也可以透过语音辨识技术让使用者更为便利。
除此之外,需要遥控器控制的电器也往往因遥控器操作复杂,导致并非所有年龄层的使用者都易于使用。于是Logbar团队便开发Ring智慧戒指,使用者可利用该戒指在空中画出频道号码,将电视转至指定频道。
用户使用手环时,也可利用MEMS感测器侦测手部往左或往右移动,做出频道或是音量的增减,以简化原本遥控器的复杂操作。
上述所提讯号辨识技术的发展皆累积了一段时间,然而穿戴式装置的崛起,可帮助使用者从原先须到目标电器旁边才能控制电器,改为只要坐在原本位置并举起手臂在空中做手势或向手表下指令,便能控制电器用品。
分析人体资讯 语音/手势辨识技术便利实用
基于语音会因音高(妇女、儿童较短较薄;男人、老人较长较厚)、音质差异(每个人皆有特别的音质)有许多不同,所以语音辨识相关技术可以用在需要安全性保护的生活用品中。
人体在运动时,系利用杠杆原理,并透过肌肉收缩的方式来完成。手臂系统由手指、手腕、手肘、肩、肩带构成,手指的动作通常以抓、收、放为主;而手腕动作则以旋转为主,光是这些动作的排列组合就可定义出多种不同的手势指令。
语音辨识的流程(图1),是先将输入讯号做前置处理,之后再做特征撷取,然后根据语言模型、辨识模型或样板做出辨识动作。语音辨识的常见技术有两个,一个是动态时间轴校准(Dyanmic Time Warping, DTW),一个是隐藏式马可夫模型(Hidden Markov Model)。
图1 语音辨识基本流程
动态时间轴校准分为两阶段,其一为训练阶段,会先建立各辨识单元的样板;其二则是使用阶段,将输入语音的特征图样与各样板进行比对,最接近者即为辨识结果。这个方法虽然可以用在不同长度的图样比对,但是所得到的样板却无法反应语音讯号的差异性。
隐藏式马可夫模型的训练阶段是在建立各辨识单元之统计模型,第二阶段会先计算由各模型产生输入语音的机率大小,再取其最大者做为辨识结果。相较于动态时间轴校准技术,隐藏式马可夫模型能利用机率分布来描述语音的差异性,因此可得到较佳的辨识率,但模型训练与辨识演算法就复杂许多。跟语音辨识类似,手势影像辨识(图2)的第一阶段也是对输入资料的前处理,包含背景分离、肤色与边缘的侦测、手部定位、手掌侦测,以及此阶段最后的影像正规化。
图2 以影像辨识为基础的手势辨识演算法流程图
接着会进入辨识阶段,此处以阶层式时序记忆(Hierarchical Temporal Memory, HTM)演算法为例,该阶段系利用机器学习的方式,进行各类别手势模型的学习与辨识。HTM演算法以网路型态组成,包含四种性质的处理节点:
·感测节点(Sensor Node)
感测节点位于HTM网路最底端,能将感测到的资料转成能用的资料格式,并传到下一节点。
·HTM节点(HTM Node)
HTM节点是主要运算节点,可根据问题复杂度形成阶层网路架构,各HTM节点进行非监督式学习,并生成时序相近的不变性特征。
·HTM顶层节点(HTM Top Node)
HTM顶层节点位于网路最高阶位置,能将资料输入种类节点进行分类。
·种类节点(Category Node)
种类节点是一个监督式分类器,可辨识输入资料的类别。
以运动感测为基底的手势辨识方式,最常见的是使用加速度计(Accelerometer)、陀螺仪等微机电系统(MEMS)感测器。
加速度计又称为重力感测器(G-sensor),可以提供线性加速度/位移的资讯。透过MEMS技术可将加速度计元件最小化。
近年来智慧型手机大都有包含此元件;穿戴装置如智慧手环、手表也都有加速度计,可做为移动轨迹的手势辨识应用。利用加速度计取得加速度值后,判断出一个轨迹动作的开始点及结束点,之后将讯号作处理动作,此处选用Hanning Filter来平滑化讯号并对讯号做正规化。
将讯号处理完的结果利用动态时间校正演算法做分类,再根据分类结果及加速度振幅大小来辨识出我们指定的指令动作。Hanning Filter可减少讯号转换过程及降低仪器震动所造成的误差。由于动态时间校正具有可以处理不同长度讯号的特性,所以适合用来辨识手势讯号,它的步骤如下:
首先从已知的分类讯号内,选一笔做为样本;接着将待比对序列输入时,与各类样本都做计算,找出最高相似性的样本,本步骤最为重要;最后再根据刚刚结果挑选相似性最高样本做为辨识结果。
穿戴式装置搭桥 有机运算愿景近在咫尺
在2015年国际消费性电子展(CES)中可以发现,智慧手表应用已经结合了汽车,而大陆业者采取低价策略,也加快高规智慧表的降价速度;Google也在最近宣布“完全自动驾驶的首度完整原型”会在加州开始测试。
由这些趋势可知,智慧联网已经悄悄从日常生活的电器用品,拓展到汽车产业;不过值得注意的是,智慧联网的安全性问题也将更被放大,特别是当骇客有机会远端控制用户的车辆或甚至锁住煞车时,后果是无法想像的。
近期的语音辨识热潮,让MEMS麦克风备受瞩目,其在联网汽车的应用领域占有着一席之地,此外,亚马逊(Amazon)近期推出的智慧家庭声控设备,也一举导入七颗MEMS麦克风,允许使用者在家中不同位置都可控制联网和影音操作的语音指令。当个人电脑的显示、储存、运算、输入输出等功能,由电视、家电、手机、汽车等智慧装置取代时,这样的智慧联网空间所需的人机介面,将会是穿戴式装置最能符合人们对便利性的期待。
目前市面上的智慧穿戴装置,多内建了加速度计与陀螺仪等惯性感测器,可以推断配戴者的动作,来发出控制指令。
如使用者将手往上举,便能开启房间电灯;手机来电时,点头便能开启扩音通话;或将食指放到嘴前,客厅的音响就会关闭。然而,往后穿戴装置的操作技术一定不仅限于上述所说的这几种,未来穿戴装置可能有机会或持续发展小面积触控、头部动作、眼球追踪、四肢动作、投影触控、脑波控制等功能。
体感介面为上述操作技术的共通点,特别是在影像类型的手势辨识中。
如工研院已利用智慧眼镜上的3D摄影机来做感测,创造出空中触控虚拟画面的操作方式,智慧眼镜商SpaceGlasses也在2014年推出内建空中手势辨识技术的3D智慧眼镜。
英特尔(Intel)也在2014年发表RealSense3D摄影机技术,让个人电脑、平板电脑等资讯产品,达成脸部辨识、情绪追踪、十指空中手势辨识等功能。凭藉Intel在业界的力量,未来每台个人电脑都有可能会直接内建此技术,以大幅降低辨识空中手势技术的成本。
穿戴装置上的惯性感测器可以感知人类的四肢动作,而头戴装置上的3D摄影机能侦测手势动作;另外,靠近头部的穿戴装置所内建的麦克风则可以接收语音指令。
当穿戴装置已能感知人类所有身体动作的时候,人类最基本的自然讯号:口语语言与身体语言便会成为最后的人机介面。
当穿戴装置以上述最自然的方式发出控制指令,操弄任何智慧联网上的装置,原本要坐在电脑前的行为,只要挥手、说话就能达成,这样的情境称为“有机运算”。 “有机运算”是指人类身边大量具感测器的智慧装置,其具自动感测数据、互相连结、主动运算与分析等功能,还能自动执行相关指令,有如人体的运作模式;而穿戴装置在这样的情境中将扮演关键的人机介面角色。虽然这样的未来还有许多技术尚待克服,但相信凭着目前资通讯科技(ICT)产业强大的技术研发能力,定能加速实现。
(本文作者任职于资策会智通所)
推荐阅读:
【get技能】增强设备技能的传感器融合解析
无边框手机大热背后:国产手机市场缺乏创新
从女司机被打事件深度分析行车记录仪方案