2017智能手机风向标:全息投影+语音控制

发布时间:2017-02-11 阅读量:2620 来源: 我爱方案网 作者: jiangliu

近日,一款类似“凝胶”的手握透明手机在网上引起热议,该手机由法国设计师菲利普 斯塔克和杰罗姆 奥利韦(Jerome Olivet)用全息与语音控制技术设计一款手机,它就是Alo。这款智能手机与现在的手机安全不同。


手机的外壳半透明,细长,像凝胶一样,拿在手上很舒适。手机没有触摸屏,它用3D全息图像投放电影与信息。

未来,语音技术将会统治世界,或许Alo正是为这个世界准备的。

奥利韦喜欢用新技术设计产品,他说:“Alo的所有手机功能都使用语音界面,阅读SMS和邮件也用语音,我们可以用声音输入信息,而不是文本。手机的摄像头像‘眼睛’一样,它可以阅读文本,识别人脸。手机还可以用3D全息图像投射电影或者信息。”

手机完全由语音控制,中央部分是铝合金制造的。柔韧的外壳相当于触觉界面,可以感知温度、振动信息。

奥利韦说:“半透明皮肤会根据活动发热,振动、通信。如果受到损害,皮肤会自动修复。”
自从亚马逊Echo和谷歌Home推出之后,语音助手进入许多家庭。当语音识别高度成熟,不再需要其它控制方式,我们就可以使用Alo手机了。目前Alo仍然只是一个概念,不过奥利韦准备开发原型机,他与法国电子企业Thomson合作开发。

奥利韦说:“手机完全使用AI,我们与设备不再是分离的。”

今年晚些时候,两名设计师就会开发原型设备。小米Mi Mix就是斯塔克设计的,这款手机获得了好评,手机几乎没有边框,屏幕占了手表前表面的91%。

下面来简单科普一下全息与语音控制技术的基本知识。

全息投影技术

全息投影技术(front-projected holographic display)也称虚拟成像技术是利用干涉和衍射原理记录并再现物体真实的三维图像的技术。全息投影技术不仅可以产生立体的空中幻象,还可以使幻象与表演者产生互动,一起完成表演,产生令人震撼的演出效果。

全息投影技术原理



其第一步是利用干涉原理记录物体光波信息,此即拍摄过程:被摄物体在激光辐照下形成漫射式的物光束;另一部分激光作为参考光束射到全息底片上,和物光束叠加产生干涉,把物体光波上各点的位相和振幅转换成在空间上变化的强度,从而利用干涉条纹间的反差和间隔将物体光波的全部信息记录下来。记录着干涉条纹的底片经过显影、定影等处理程序后,便成为一张全息图,或称全息照片。

其第二步是利用衍射原理再现物体光波信息,这是成象过程:全息图犹如一个复杂的光栅,在相干激光照射下,一张线性记录的正弦型全息图的衍射光波一般可给出两个象,即原始象(又称初始象)和共轭象。再现的图像立体感强,具有真实的视觉效应。全息图的每一部分都记录了物体上各点的光信息,故原则上它的每一部分都能再现原物的整个图像,通过多次曝光还可以在同一张底片上记录多个不同的图像,而且能互不干扰地分别显示出来。



上图是一张全息投影的地形图。

语音识别技术

语音控制,以其方便、自然、解放双手的特性受到现在消费的的青睐。然而,想要实现极佳的语音控制体验,语音识别技术至关重要。

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。



语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

语音识别系统提示客户在新的场合使用新的口令密码,这样使用者不需要记住固定的口令,系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了,不一致环境造成的性能下降是应用中的一个很大的障碍。

语音识别工作原理

动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序,他们用一个含义广泛的词汇定义了一个新的信号处理技术,倒频谱的计算通常使用快速傅立叶变换。

从1975年起,隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法,频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。

平均频谱法使用有利的倒频距离,语音频谱中的音位影响被平均频谱去除。使用矢量量化法,语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是,当训练向量的数量很大时,这种直接的描绘是不切实际的,因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征,取得了很好的效果。

想骗过语音识别系统要有高质量的录音机,那不是很容易买到的。一般的录音机不能记录声音的完整频谱,录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统,模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的,所以语音识别系统会结合个人身份号码识别或芯片卡。

语音识别系统结构

一个完整的基于统计的语音识别系统可大致分为三部分:

(1)语音信号预处理与特征提取;
(2)声学模型与模式匹配;
(3)语言模型与语言处理;
语音信号预处理与特征提取。

语音识别基本方法

一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

目前,一般的智能手机基本上已经实现语音拨号、语音闹钟、语音开启手机APP等功能,未来,以手机语音为突破口,实现对智能家居、车载通话等功能的智能控制技术成为2017年智能手机的重点发展方向!

相关资讯
CIS芯片龙头年报解读:格科微高像素战略如何实现287%净利增长

格科微电子(688728.SH)2024年度财务报告显示,公司年度营收突破63.83亿元人民币,实现35.9%的同比增幅,归母净利润呈几何级增长达1.87亿元,EBITDA指标跃升107.13%至14.15亿元。这种爆发式增长源自其在CMOS图像传感器(CIS)领域实施的"技术锚定+场景穿透"双轮驱动战略,特别是在高像素产品矩阵构建和新兴应用市场开拓方面取得突破性进展。

RS2604 vs 传统保险丝:技术迭代下的安全与效率革命

RS2604作为一款高集成度、可配置OVP(过压保护)和OCP(过流保护)的eFuse开关,专为12V24V母线电压接口设计,兼顾热插拔保护与动态负载管理。其输入电压覆盖4.5V40V,极限耐压高达45V,适用于工业设备、汽车电子及消费电子领域。通过外部电阻灵活设置350mA至2.5A的限流值,结合±7%高精度电流检测,RS2604在安全性与能效间实现平衡,成为复杂电源系统的核心保护方案。

全球汽车芯片市场遇冷,恩智浦如何守住56%毛利率防线?

荷兰半导体巨头恩智浦于2025年4月28日披露的财报显示,公司第一季度营收28.35亿美元,同比、环比均下滑9%,但略超市场预期。在汽车、工业与物联网等核心业务需求疲软的背景下,Non-GAAP毛利率同比下降2.1个百分点至56.1%,自由现金流则维持在4.27亿美元,突显其成本控制能力。值得关注的是,管理层对第二季度营收指引中值(29亿美元)释放出环比复苏信号,但关税政策的不确定性仍为业绩蒙上阴影。

全闪存与软件定义双轮驱动——中国存储产业年度趋势报告

根据IDC最新发布的企业级存储市场追踪数据,2024年中国存储产业迎来结构性增长拐点。全年市场规模达69.2亿美元,在全球市场占比提升至22%,展现出强劲复苏态势。以浪潮信息为代表的国内厂商持续突破,在销售额(10.9%)和出货量(11.2%)两大核心指标上均跻身市场前两强,标志着本土存储生态的成熟度显著提升。

索尼启动半导体业务战略重组 图像传感器龙头或迎资本化新篇章

全球消费电子巨头索尼集团近期被曝正酝酿重大战略调整。据彭博社援引多位知情人士透露,该集团拟对旗下核心半导体资产——索尼半导体解决方案公司(SSS)实施部分分拆,计划于2023年内推动该子公司在东京证券交易所独立IPO。该决策标志着索尼在半导体产业布局进入新阶段,同时也预示着全球图像传感器市场格局或将发生重要变化。