解读谷歌如何“透视”VR头显,打破表情眼神交流障碍
虚拟现实可带来沉浸感相当强的体验,提供浏览世界的新方式和探索新环境的能力,包括真实的和想象的。但与物理现实相比,由于VR头显的封闭性,要与其他人共享这些体验并不容易。
混合现实(MR)在一定程度上可以缓解这种隔离感。混合现实是一种跟虚拟现实相关的媒介,非VR用户可通过二维视频格式与感受到VR用户的虚拟体验。然而,即便是MR可以促进分享,头显仍然是面部表情和眼神交流的阻碍,为充分参与体验和对他人的完整感知提出了一个难题。
谷歌的机器感知研究员一直在与Daydream Lads和YouTube Spaces合作,寻找解决表情眼神交流障碍这一问题的方案。他们通过虚拟地“摘除”头显,呈现出用户的面部,并营造出一种逼真的透视效果,从而可以让表情眼神得到交流。
如上图所示,在绿幕下捕捉的VR用户(左上)与虚拟环境(右上)混合,并生成一种MR效果。在传统的MR效果中,用户仍然会显示为佩戴着头显(左下)。而谷歌的研究人员则实现了一种“摘除”头显的效果(右下)。注意,头显正面设置了一个marker(标记物)以辅助追踪。谷歌的方法结合了3D视觉、机器学习和图形技术,包括三个主要的部分,下面是映维网从谷歌整理的分享。
1. 动态人脸模型捕捉
谷歌技术的核心概念是把人脸的3D模型代替被头显遮盖的面部区域。3D模型会与MR视频中的人脸同步,从而营造出一种头显被摘除的感觉。首先,谷歌通过“gaze-dependent dynamic appearance”(注视点动态外表)技术捕捉了用户的3D人脸模型。最初的校准步骤需要用户坐在一台色深摄像头和显示屏前面,然后眼睛需要注视着移动着的游标。谷歌通过这种一次性的校准(用时通常少于一分钟)来获取用户的3D人脸模型,然后获得不同注视方向、眨眼所映射的外表图像(或材质),并形成一个数据库。这种注视点数据库允许谷歌在同步中动态地改变面部的外观,并生成任何需要的眼睛注视,从而让同步的脸部表情看上去自然和生动。
随着用户一直注视着游标的运动,摄像头会捕捉她的面部(左图)。右图展示了重建后的3D人脸模型的动态性:通过移动或点击鼠标,谷歌可以同步眼睛注视和眨眼。
2. 校准与对齐
制作混合现实视频需要进行专门的设置,包括一台外部摄像机,并与头显校准和同步。摄像机会捕捉绿幕下的VR用户,然后将其与虚拟世界相融以创建最终的MR视频。一个重要的步骤是准确地预测摄像头与头显坐标系统之间的校准。这些校准通常会涉及手动设置,并需要完成多个步骤。为简化流程,谷歌在头显正面添加了一个物理marker,并在3D中进行追踪,这样谷歌就能在VR中自动优化标定参数。
要实现“头显移除”的效果,我们需要对齐3D人脸模型和视频流片段中面部的可视区域,这样两者就能无缝地相融。合理的做法是把人脸模型置于头显后方,然后进行对齐。上面所提及的校准和VR头显追踪可以提供足够的信息,帮助谷歌判断具体的安放位置,这样就能准确把虚拟人脸渲染至视频中。
3. 合成和渲染
在解决了对齐问题后,最后的一步是把3D人脸模型渲染至视频中,并确保其与摄像机拍摄的画面保持一致。谷歌结合了动态注视点数据库和配备SMI眼动追踪技术的HTC Vive头显,还原了真实的用户注视。这些眼睛追踪器的图像缺少足够的细节,不能直接还原被遮挡的面部区域,但可以提供精细的注视信息。在使用追踪器的实时注视数据时,谷歌合成了一个人脸模型,可以准确反映用户的注意力和眨眼。在运行期间,系统会搜索注视点数据库以找出最适合的人脸图像,同时还能注意到美学因素,比如说平滑度。另外,为了处理注视点数据库获取与运行时之间的光照条件变化,谷歌应用了颜色修正和羽化效果,这样合成的人脸区域就能匹配其他的面部区域。
我们人类对面部的人工痕迹十分敏感,即使是小小的不完美也会让人感觉不够自然,这种现象被称为“恐怖谷”理论。为了应对这个问题,谷歌并没有完全“移除”头显,而是选择了一种“潜水面罩”的效果,呈现出半透明的头显。这种做法可以避免出现恐怖谷效应,同时可以遮掩算法在对齐和颜色修正中的小错误。
4. 结果和扩展
谷歌通过这种“头显摘除”技术来改进混合现实视频,让这种媒介不仅可以呈现出VR用户与虚拟环境的交互,同时以一种自然又令人信服的方式表现出用户的面部。下面是一名艺术工作者在虚拟环境中使用谷歌《Tilt Brush》。
一名艺术工作者正通过谷歌《Tilt Brush》创建3D艺术。顶部是的传统的MR效果,头显会遮盖住用户的面部。底部是应用谷歌“摘除头显”技术后的效果,我们可以看到用户的面部和眼睛。
这种技术的潜能不仅只局限于混合现实。头显移除效果可以优化VR视角中的交流,并服务于各种不同的应用,比如VR视频会议、多用户VR游戏、与家人和朋友进行VR探索等等。