裸眼3d智能屏(触控屏要变老古董了)
智东西
编 | 十四
随着硬件端技术的不断进步,算法与软件层面的不断优化,3D深度视觉的精度和实用性得到大幅提升,尤其是TOF方案与VCSEL的快速成熟,使得基于3D深度视觉的“深度相机 手势/人脸识别”具备了大规模进入移动智能终端的基础。
市场研究机构 ABI Research预估,全球眼球追踪、手势以及距离传感器技术领域在2016年创造近50亿美元的收入 。免提操作或手势识别很快将成为高端旗舰智能手机、媒体平板电脑和智能眼镜区别于其他同类产品的一个关键因素。
本期的智能内参,我们推荐来自海通证券的3D深度视觉产业报告。如果想收藏本文的报告全文,可以在智东西(公众号:zhidxcom)回复关键词“nc129”下载。
以下为智能内参整理呈现的干货:
尽管触控显示屏的识别精度和清晰度越来越高,但是,触控显示屏限制了用户的使用空间和灵活性 , 为了解决这一问题,语音控制与体感控制开始出现。
语音识别可以完全解放双手,但对于游戏娱乐、互动体验、拍照等领域,这些必须有用户肢体参与的场景,语音交互无法满足需求。 因此 ,比现今触控屏更高层次的体感交互成为了广大厂商追求的目标。
*人机交互发展趋势趋势
*3D深度视觉在众多领域具有广阔前景
两大热点引爆体感交互变革手势识别: 场景丰富的百亿级市场
无论是消费级市场的游戏、娱乐、交互,还是商业领域的医疗、工业、军事等,都需要丰富的手部动作来参与,因此手势识别具有非常广泛的应用场景。
根据IHS的数据,2014年全球手势识别与传感器市场达到了31.2 亿美元的规模,过去几年的复合年增长率为32.78% ,预计到2022年该市场规模预计将达321.6亿美元。
*手势识别国内外产业链公司汇总
由于消费级市场更加的庞大,具有更强的爆发力,因此现阶段,广大厂商在 VR/AR(HoloLens)、汽车(在仪表盘上安装ToF摄像头)、智能电视(三星)、游戏机(微软XBox)等领域的手势识别投入巨大的资源,并且已经取得了一定的成功,正在不断提升技术水平、准确度和应用的实用性。
手机中集成手势识别将带来众多的益处,包括:全新的用户界面实现了超越触摸屏的更深层次的控制功能,并将引领游戏和智能手机控制进入全新时代;新的控制感知更为灵活,戴着手套或是手不干净时也可进行控制;带来更丰富的用户体验,它无需机械开关、无需触摸屏或按钮就可实现家居自动化。
*手势识别应用案例
人脸识别: 从专业市场走向消费市场
人脸识别技术经历了二维可见光图像人脸识别、三维图像人脸识别/热成像人脸识别、基于主动近红外图像的三维多光源人脸识别三层进化过程,逐渐解决了光线等环境的变化对于人脸识别的影响,加之算法的不断精准演化,人脸识别技术不再局限于简单的单体身份认证,逐渐进入越来越多新的应用领域。
安防监控领域,人脸识别技术已经开始应用在刑侦、人流监控、人证合一等;人脸识别可以替代手势识别完成移动端的身份认证、支付交易确认、权限登录等功能;人脸识别可以直接获取消费者面部表情、生理年龄或精神状态;人脸识别还可以用于移动端自拍的快速对焦,用户自拍美颜等功能……
*人脸识别技术用于判断驾驶员精神状态
大佬们的布局苹果:整合行业先驱PrimeSense
苹果习惯于快(mai)速(mai)吸(mai)收新技术并用于未来的旗舰 iPhone。2013年11月,苹果以3.45亿美元收购以色列 3D 传感器生产商 PrimeSense。PrimeSense的成名之战是给微软Kinect体感控制器提供3D技术。收购PrimeSense之后,苹果着力推动PrimeSense 的3D体感控制器向小型化发展。
*PrimeSense 3D传感器Capri
2015年4月,美国专利局公布苹果 ,美国专利局公布苹果 3D 手势控制技术专利 ,通过专业化的算法更精确地识别用户的手势。即便带有特征的部分恰好被遮挡住,只要将包含被遮挡部分的图片片段忽略掉,仍然能够得到特定场景的精确描述符。配上数据库中储存的已知距离数据和运动学数据,就能获得可靠的手部动作和位置数据。
2015年10月,苹果公司关于手势和面部识别的专利再次出现,当用户与他人通过视频相关的应用(如视频)进行互动时,他们可以通过简单的手势,将视频画面中特定对象保存为本地图片。
*2015年苹果手势控制专利-识别视频中的物体并保存
2016 年7月,苹果再次公布新型3D手势控制专利 ,是一个图形投影仪,内嵌在一个诸如 iPhone手机这样的 iOS 设备上,可以识别出用户的手势操作,由此可以作为把手势作为游戏的控制杆或者控制器。
*2016年苹果3D手势识别专利结构图
面部识别方面,2015年7月,美国专利局批准了一项苹果提交的面部识别专利,名为“低门槛面部识别”,苹果此番获得的低门槛识别技术专利基于前置摄像头捕获的图像,然后图像处理器会对该图像进行处理,随后便与存储在参考模块中的图像进行对比。
*苹果“ 低门槛面部识别”专利
英特尔:持续强化升级RealSense
早在 2012 年左右,英特尔便着重研发实感技术,当时叫 Perceptual Computing,即感知计算,并开放英特尔感知计算软件开发套件2013版。2013 年1月,英特尔联合Nuance等多家公司推出了“感知计算”,类似于微软的 Kinect,可进行手势与人脸识别,缺点是设备体积大,必须借助 PC 电脑完成。
随着技术完善与成熟,2014 年初更名为 RealSense,即实感技术,而后发布了新的感知计算软件开发套件2014 版。2015 年英特尔新的 RealSense 模块明显比之前的版本更小、更轻薄,它的运行温度更低,同时还拥有更大的识别范围。
*集成于电脑内部的RealSense
RealSense 的核心技术是红外线传感器(IR Sensor),用于接收来自红外线发射器投射的光场信息,这使得 RealSense 在探测范围内,能够创造出一幅 VGA 级别分辨率的深度图,拓展版的模块还包括一个加速计和陀螺仪。目前,RealSense 3D摄像头已经集成进戴尔、联想、华硕、惠普、宏碁 等厂商的产品。
*英特尔RealSense组合产品与 SDK
在具体的识别能力方面,RealSense 前置相机精度更高,可以在 0.2–1.2 米范围内跟踪手上的 22 个点的位置和方向。左右手是区分的,因而可以双手进行交互,可以实现静态手势识别和动态手势识别。
RealSense 相机同样可以提供3D脸部检测与跟踪,可以同时跟踪4张人脸,可以获得三维 XYZ 坐标。与2D跟踪相比,3D头部跟踪在头部运动方面更准确。可以提供脸部 78 个标记点的跟踪以提高脸部识别和分析的精确度,同时还可以进行面部表情识别与情感识别。
*RealSense可跟踪手上的22个点,脸上78个点
微软:从Kinect到 Handpose
微软是最早涉足 3D 视觉的公司之一,公司在游戏领域推出 XBOX 游戏机,志在与索尼和任天堂的游戏机一较高下,为了形成自己的竞争优势,微软在 2010 年与PrimeSense 合作,推出了 XBOX360 体感周边外设——Kinect 1代。
Kinect 上市后的头 60 天内,微软总计卖出了 800 万台 Kinect 设备,同时成功拿下了“吉尼斯世界纪录中销售速度最快消费者设备”的头衔。
Kinect 1代采用结构光原理,主要硬件为两个摄像头和一个红外线发射器:微软X853750001 / VCA379C7130 红外线感应摄像头以及 CMOS;VNA38209015 可见光摄像头以及 CMOS;OG12 / 0956 / D306 / JG05A 红外线发射器。红外线摄像头提供景深数据(Z 轴),可见光学摄像头则提供色彩对比数据。
*Kinect 1代平台架构图
采用结构光原理的 的 Kinect 1代的游戏体验(准确度 、 图像的分辨率和响应速度)并不好,因为计算斑点位移需要用图像在一个小范围区域内的来做块匹配,导致牺牲了像素级别的细节,凸凹不平的表面、物体边缘、很细的物体很难检测准确的深度。
2012年微软先后收购了 TOF(时间光)相机公司 canesta和3dv,2013 年微软终止与PrimeSense的合作,自行开发了Kinect2 代(成为 Kinect one) ,采用的是 TOF原理,无论精度、分辨率还是响应时间都得到了很大的提升。
2015年5月 ,微软展示了基于Kinect 的实时手势跟踪系统Handpose ,可在仅利用一个深度摄像头(如Xbox One的Kinect)的情况下对复杂手势进行精确重构。Handpose 利用了机器学习、3D建模以及合成分析(利用预先建立的手势集对实时手势进行比对)等技术来提高手势识别的精度和适用范围。2016年的 HoloLense 便使用了Handpose 技术。
*Handpose 技术大幅提升 技术大幅提升手势追踪的精度
谷歌:Project Tango瞄准移动端
Project Tango由谷歌先进技术与项目部门和部分研究人员,以及硅谷 Movidius(已被英特尔收购)合作研发,后者提供的芯片技术可以分析和表达来自传感器和摄像头的数据。2014年2月谷歌成功为Project Tango项目研发出了一款Android手机原型机。2016年6月,谷歌与联想合作正式推出基于 Project Tango 技术的 Phab2Pro 手机。
谷歌的目标是将自己在智能手机端安卓的辉煌复制到未来的移动端3D视觉领域,提前在移动端运动追踪 、深度感知、 区域学习 等方面实现布局, 尤其是在软件与操作系统的赛道。
Project Tango 包含三块技术:运动追踪(Motion Tracking) ,深度感知(Depth Perception) 和区域学习(Area Learning)。
在具体的 3D 深度感知方面,Project Tango 可以提供结构光和 TOF 两种技术方案,在结构光方面是与 PrimeSense(已被苹果收购)合作,在 TOF 方面,Tango 的深度传感器采集三维信息输出“点云”数据,结合运动追踪的轨迹数据达到了对“点云”的实时拼接。
*Project Tango原型机拆解
在具体的手势识别方面,谷歌也锐意创新,与主流的光学方案不同,在 2015 年的谷歌开发者大会上,谷歌提出了全新的60GHz毫米波手势识别技术,项目叫Project Soli。谷歌开发两种 Soli 芯片,一种使用脉冲雷达,约9平方毫米大小;另一种使用连续波雷达,约 11 平方毫米大小。
*Soli芯片部分特点
索尼:收购SoftKinetic补短板
索尼是与微软、任天堂齐名的世界电子游戏业三巨头之一,但与其他两巨头相比,索尼还是有自身的短板。
以手势识别技术为例,微软的 Kinect 能使用结构光的技术来对玩家的手势进行识别,但索尼的PS4 则需要通过两个普通摄像头来完成此任务。2015年10月,SONY宣布收购比利时传感器技术提供商 SoftKinetic ,恰好可以补齐这一短板,也是为了虚拟现实与体感技术的结合。索尼在官方宣称,“ Softkinetic Systems SA的应用可帮助公司提升VR与 PS游戏方面的控制体验”。
SoftKinetic是一家专门从事深度传感摄像头技术的电脑视觉初创型企业,成立于 2007 年,专注研发体感技术,其传感器技术能够追踪诸如手势等相关的图像。SoftKinetic 技术能够部署到安装在增强现实和虚拟现实硬件上的摄像头之中,从而增加手势与面部追踪的能力。SoftKinetic 公司的摄像机采用 TOF 方案。
*SoftKinetic的手势追踪技术
事实上,索尼此举还有更长远的目的:结合SoftKinetic 的技术,不仅要在图像领域,还要在更宽广的传感应用范围,发展下一代的图像传感器和解决方案。索尼在 2015年10月分拆了半导体业务部门,成立了“索尼半导体解决方案公司”。索尼的下一个目标很可能是极具潜力的体感技术市场,这对连年来处于亏损状态的索尼来说将是一个新的出路。
三星:手势专利隔空操作Gear VR
美国专利局在 16 年 3 月公布了一项三星公司的专利申请,申请文件显示,三星为旗下的Gear VR 头显研发了一款可以识别手势的传感器,让用户可以用手势隔空操控Gear VR。
这个传感器添加在三星 Gear VR 的左侧上方,可以隔空识别用户的手势操作,并反馈给 Gear VR,实现选择菜单、图标、照片、视频并点击的操作,完全不需要使用到设备上的任何真实按钮。如果这项专利能在 Gear VR 上成功应用,那么 VR 的操控会更加随心所欲,这也将对 VR 领域产生巨大影响。
*三星手势识别专利原理图
同时,科技公司 Gestigon 和 Pmd 在16年6月宣布在三星 GearVR 上合作研发手势识别,结合 Pmd 的 CamBoard pico flexx 深度传感器和 Gestigon 的 Carnival AR/VR Interaction Suite(增强/虚拟现实互动套件),在现有的 VR 设备上进行无触摸手势交互。目前跟 Gear vr 应用的交互方式非常有限,用户需要左右转动头部和点头来显示菜单选项。Gestigon 的 Carnival SDK 实现了一项更自然的交互,把用户的双手放在应用当中。
*Gestigon和Pmd 在三星 GearVR上合作研发手势识别
三大方案的技术原理计算机视觉技术的发展主要经历了 : 二维静态识别、二维图像动态识别、三维图像动态识别三个阶段。以手势识别为例,相比较二维手势识别,三维手势识别增加了一个 Z 轴的信息,它可以识别各种手型、手势和动作。
这种包含一定深度信息的手势识别,需要特别的硬件来实现,常见的有通过红外光 信息的手势识别,需要特别的硬件来实现,常见的有通过红外光 光学传感器来完成。
*三种手势识别类型对比
根据硬件实现方式的不同,目前行业内所采用的主流3D机器视觉大约有三种:结构光、TOF 时间光、双目立体成像。
*三种3D手势识别技术对比
结构光(Structure Light)是目前业界比较成熟的深度检测方案,通过发射特定图形的散斑或者点阵的激光红外图案,摄像头捕捉到反射回来的图案,对比散斑或者点的大小,从而测算出被测物体到摄像头之间的距离。
时间光(Time of Flight)是一种光雷达 (LIDAR) 系统,可从发射极向对象发射光脉冲,通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离,优点在于响应速度快,深度信息精度高 , 不容易受环境光线干扰, 成为移动端手势识别最被看好的方案。
多角立体成像(MulTI-camera )利用两个或者两个以上的摄像头同时采集图像,通过比对同一时刻获得的图像的差别,计算深度信息。 方案的优点在于不容易受到环境光线干扰,适合室外环境,不易损坏,但不适应昏暗环境、特征不明显的场景,目前在机器人、自动驾驶领域应用较多。
*消费级市场3D视觉产业链结构
无论是结构光方案,还是 TOF 方案,主要的硬件包括四部分:红外光发射器(IR LD)、红外光图像传感器(IR CIS)、可见光图像传感器(Vis CIS)、图像处理芯片,由于 3D 视觉需要克服环境光线的干扰,因此在红外 CIS 上需要添加高质量的红外滤色片(IR Fliter)。另外结构光方案还需要在发射端添加光学棱镜(Lens)与光栅(DOE)。双目立体成像方案比结构光和TOF 方案多一颗红外图像传感器。
智东西认为,基于TOF的深度视觉体感交互响应快,精度高,干扰少,未来两年或成为移动端、游戏设备体感交互的技术黑马,而结构光和多角立体成像的技术成熟度使其在消费市场、基建领域的应用很有潜力。总的来看,基于深度视觉的体感交互将借势移动设备的崛起以及可穿戴、智能化技术的抬头渗透消费电子市场。
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com