让我们来谈谈VR当前面临的挑战,这是最全面的一次

发表于2017-07-29
评论0 1.8k浏览
Oculus 首席科学官Michael Abrash在会上发表了演讲,探讨了VR当前所面临的一些挑战。

“全球重大挑战峰会”由美、英、中三国工程院联合举办,探讨如何通过工程科技和跨学科合作解决当今世界最为紧迫的重大挑战。

Oculus 首席科学官Michael Abrash在会上发表了演讲,探讨了VR的挑战,以下为演讲全文:

我很高兴今天来到这里,与大家讨论虚拟现实面临的巨大挑战。在时间尺度、广度和技术深度,以及对我们生活方式的潜在影响来说,它确实是一个巨大的挑战。

VR的起源可以一直追溯到1968年Ivan Sutherland开发的“达摩克利斯之剑”立体视觉系统,但是在将近半个世纪之后,我们才开始走上正式的VR之路。当我们讨论什么VR最终会变成什么的时候,它无穷的潜在影响才开始浮现。这一切要从人类的体验说起。

我们经历的现实是建立在我们大脑中的,这种建立是基于我们基因中已建立的许多假设、在我们一生中学习到的知识、以及我们感觉到的非常稀少的数据。

现实皆虚拟

这是一个强大的命题,如果你以前从没有这样想过,你也许根本不会意识到。我们经历的现实其实是我们自己的内心构建,而且是基于非常不完整的数据的构建。它通常与现实世界相匹配,这在进化上并不奇怪,但它不是对现实的真实反映——它只是对世界上最可能的状态的推论,这取决于人类在某个时刻掌握的知识。

我们来看几个例子,这几个例子能说明我们对现实的看法其实只是一个最佳猜测。

大家能否看到桌子正下方那块白色瓷砖,以及桌子两侧的黑色瓷砖?

现在把它们盖上,只露出三块瓷砖。

实际上,它们都是完全一样的灰色瓷砖。

但是,如果其中一块瓷砖是在阴影之下,人们会认为它一定是白色的;如果另一块在明亮的光线中,它就一定是黑色的。人们对于色彩强度的感知是基于环境的相对比较而下定论。因此你的视觉系统会自动为你推荐最合理的选择:你看到的是白色和黑色,而不是灰色。

这是另一个例子。大家看看屏幕上的2D形状的两张桌子中哪张更宽,以及哪张更长?

准备好了吗?

它们的大小完全相同。与色彩强度一样,人们对于大小的感知也是是基于环境的推论。

现在我们来看看一些不符合现实的高级推论的有趣的例子。

显然我们看到的是不对的。

这个视频是一个不存在的视角,因此你的视觉系统得出结论,窗口向后旋转了半轮。要使这个结论正确,秸秆必须穿过窗户旋转,这也是你看到的,尽管这件事没有发生,而且实际上这也是不可能的。

再来看另一个例子。

又是一个不可能发生的事情。

再一次,我们的知觉体系做出一个非常合理的假设:在这种情况下的对象,特别是脸部,往往是凸的。

这正是有趣的部分——尝试不把脸部看成凸起。

有些人可以做到这一点,但是对大多数人来说很难。尽管你知道真实的形状,但是很难避免这种情况。

最后,我们来看看一个我认为最令人信服的例证——麦格克效应,这个实验告诉我们:体验的现实只不过是一个猜测。首先,我们看看这个视频:

显然,她说“吧,吧,吧”。现在我们来看另外一个剪辑:

在这段视频里,我们清楚地听到她说的是“发、发、发”。有趣的是,她实际上并不是在说“发” 。虽然这个视频中她似乎在说“发”,但音轨是“吧”。或许你很难相信,这是因为视觉会影响我们的听觉。

这可能让你感到有点混乱,或许它像一个骗人的把戏,所以让我们以不同的方式再看看。再次,音轨是“吧”,但这次会有一个分屏,一面的嘴型在说“发”,另一边说的是“吧”。在这种情况下,将你的眼睛从一边移到另一次,观察你听到的东西的变化。

在我看来,体验过麦格克效应的人不可能不相信你所体验的现实只是一个推论,而不是真实世界的直接反映。当你听到“发”时,这个房间里却从未出现过这个声音,这个声音从来没有震动过你的耳膜,但这是你视觉和听觉证据下最可能的声音,所以你“听到”它。

这就是VR的关键:无论是什么来源,我们体验的现实都是以感知输入为依据。所以如果VR能够提供正确的感知输入,我们可以拥有任何我们想要的体验,我们对于这些体验的感觉是真实的——它们将是真实的体验。

我开始明白这一点,是在我第一次体验坠落的VR场景中,当时我的膝盖紧张地僵硬,想要后退的强烈欲望向我袭来。我的意识告诉我这并不是真正的坠落,但是我所感知到的个人现实就是:我有堕落的危险。现在VR的用途已经很广泛:全球会议、虚拟物体的使用、并与任何人在任何地方进行交互,VR的潜在力量开始变得明显。

我个人对于VR的愿望,是实现虚拟工作区。在虚拟工作区里,有完全可配置的虚拟显示器、全息图和不同的工作空间之间快速切换的能力。我相信很多人也有这样一个愿望:其他工作区的其他同事可以传送进来与我交谈,我也可以传送到他们的工作区。这样一来,工作会更有成效、更有趣——这种感觉就像拿到我人生中第一部PC一样。

事实上,40多年前出现了JCR Licklider的想法和Xerox PARC的创作,两者结合使PC诞生,计算机才能发展今天的样子。这是人类计算机领域的一大步。

我相信VR将是第二大步。不是通过平面屏幕与数字世界互动,而是数字世界能够随时随地触手可得。

要达到最终目标,我们需要什么

这就是我对于VR如何改变世界的看法。但是为了达到目标,需要很多巨大挑战性的技术进步。让我们来看看VR需要什么才能继续走下去,成为我们工作、娱乐和连接的重要一部分。

由于VR是关于驱动感知系统,所以开始的地方就是感觉:视觉、听觉、触觉、嗅觉、味觉和前庭感。在我看来,虚拟现实在可预见的未来还不会满足最后三个,但视觉、音频和触觉在今天不同程度上已经起了作用,这三个方面都有潜在的发展前途。

对于视觉,我们需要将视野增加到人眼的完整范围,把分辨率和清晰度增加到视网膜极限,将动态范围提高到现实世界的水平,并实现适当的焦点深度。

音频需要适当的空间化(声音来源方向)、全面的空间传播(如何在虚拟空间中传播声音)和合成(从物理运动和碰撞的建模中生成声音)。

触觉特别具有挑战性。手的触觉是最重要的,因为手是我们与世界互动的主要媒介。我们现在所能做的只是粗糙的振动和抵抗形式。也许有一天,会有一些手套或外骨骼可以让我们自然地与虚拟对象进行交互,但这是一个需要深入的研究问题。

除了将虚拟信息输入感知系统之外,VR还需要机器感知:感知、重建和理解现实世界的能力。这样才能让我们安全地移动,并将现实世界的对象带入虚拟世界,如书桌、键盘和家具,并重新塑造它们。把真人带入虚拟世界更有价值,这能实现真正的远程视频,你可以在世界各地碰面、工作、玩游戏,基本上能做任何事情。

我相信这将是更重要的使VR更广泛的因素,因为对于人类来说,最有趣的还是人类。然而不幸的是,我们对其他人的细微差别也非常敏感,因此虚拟人物是VR中最难的部分之一。

VR是迄今为止最全面的感知技术,我们需要解决的一切都是人类感知的难题。VR的关键不在于开发的技术,而是技术如何与感知系统相互配合来创建体验。

总而言之,VR需要推进的广泛领域形成了巨大的研究空间,涵盖了人类所有感知和六个知觉和重建领域。探索这个空间将需要各个领域的世界级研究,从计算光学到材料科学,再到传感器技术等。它还需要大量的跨学科工作,因为多种技术的交点才是VR成功所在。

作为一个例子,想想我之前提到的虚拟工作区。显然需要手的灵巧操纵,才能使其与现实世界一样高效,这当然是一个难题。但是想象一下,我们以某种方式解决了这个问题,然后我们又遇到了另一个问题:VR头显固定镜头焦距都在两米,但是我们必须把东西都放在一米以内,这样才能方便我们的手够得着,但长时间看眼睛会不舒服。

简而言之,除非我们解决焦点深度的问题,否则我们无法在VR中获得自由的双手。同样,我们希望声音的空间化能在一米之内,这是另一个未解决的问题。我们想要足够高的分辨率,使虚拟显示器与真实的显示器一样清晰。我们希望能够感觉和重建我们的桌面、键盘、鼠标等。我们希望能够实现虚拟人类。你很快就会意识到,我提到的每个研究领域都是必不可少的,有了它们才能建立一个可以提供正确体验的系统。

让我们来看看VR中的三个挑战,第一个就是:显示。

焦点:VR显示

目前VR头显中的显示系统本质上只是一个屏幕和一个放大镜。透过镜头,你所看到的是单个焦距的单个放大图像。

问题是:我们把固定焦点放在哪里?

右图中,我们将VR焦点置于无限远的窗外。所以右侧的虚拟图像和左侧的现实看起来很相似。虽然有一些区别,但现在我们先忽略它们。

最大的区别是当你看近处的东西时,左边的现实世界中,最近的植物是清晰的,但右边VR中最近的植物却是模糊的,因为屏幕聚焦在远处,而你的眼睛聚焦在近处。

所以我们需要一个更好的头显聚焦方法。

我没有时间学完所有的科学,但至少可以通过视觉方式带大家看看过去几十年来提出的几个潜在的解决方案。

这是一个简单的3D游戏场景。

从验光单位来说,这个模型的长度为四个屈光度。

再次说清楚,今天的VR头显焦点是单一的,比如说0.5屈光度。

这样一来,越近的物体离聚焦平面越远,因此看起来越模糊。

很多人提出这样的想法:设置一个以上的聚焦平面,同时或快速地连续显示。

感知科学家会告诉你,这些平面不能距离太远,否则它们之间会变得模糊,所以你遇到问题了:如何制作出足够的平面使所有的四维屈光度都在聚焦范围。

没关系——接下来的问题就是如何放置这些聚焦平面。

著名光学机器制造商理光的研究人员最近尝试了这一点,他们的研究证实,如果有适合的自适应光学器件,你可以移动这些平面,但平面之间的物体就会变得模糊。所以,Oculus Research的研究者Nathan Matsuda、Alex Fix和Doug Lanman看了之后说:“我们不需要更多的平面,而是让每个平面更有用。我们可以撤掉一些平面,并折弯剩下的平面。”

因此,如果我们使用更复杂的自适应光学器件,我们可以使这些平面弯曲,仅仅一个或几个平面就能兼顾场景中的每一个物体。

首先让我们来看一个模拟。

首先我们把遥远的背景设置为焦点,然后把前景设置为焦点。

我们可以不断调整,使焦点落在正确的物体上。

这个想法似乎很不错。

当然,模拟总是有效的,所以我们继续建立了一个类似头显的测试模型。

这些是用相机记录的实际图像。使用目前的空间光调制器,当你将真实相机放入原型时,对比度就会降低。该团队正在努力改善这一点,但它确实有效。

首先把一个远的对象设置为焦点,然后再把焦点放在近的对象。

在没有眼动追踪的情况下,我们可以聚焦任何地方。

现在将左侧的固定焦点显示与右侧的自适应对焦显示进行比较,可以看到一个潜在的设置VR焦点新方式,令人兴奋。

瞳孔的问题

我将关注的第二个领域就是眼动追踪,这是VR中一个关键的技术。目前眼动追踪中最先进的技术是对瞳孔和角膜反光点的追踪。

这张图显示了机器追踪瞳孔时的工作状态,但是有时瞳孔的变化很大。

瞳孔既可以改变大小,也可以改变形状,两者不一定同时发生。

闪光点追踪能弥补瞳孔追踪的局限性,但是眼睑仍然会引起问题,更不用说将照明器和相机安装到头显中的技术难题。

此外,眼睛并不是一个僵硬的器官:

这里不是很明显,所以你可以再次观看,注意眼睛停止移动后瞳孔的形状。

现有的眼动追踪技术试图推断光子在视网膜上的位置,并且是基于瞳孔的位置和角膜的反光点。正确的解决方案是直接追踪视网膜,查看位于视网膜上的图像,但是在头戴式显示器中进行全方位的眼动追踪将需要开发一种全新的眼动追踪技术。

虚拟空间中的真人

我将介绍的第三个领域是虚拟人类。虚拟人类将在虚拟空间中代表真人。正如我所说,我相信这将是VR得到广泛采用的最大原因。

创造逼真的虚拟人类将需要至少集成四种不同的追踪技术,但到今天为止,这些追踪技术都不成熟。我们已经谈到了第一个眼动跟踪,接下来让我们看看手部追踪。

完美的手部追踪是这样的:

然而,手的自由度大约为25度,还有大量的自遮挡。现在,需要使用后向反光镜手套和大量摄像头才能达到这种追踪质量水平。

脸部是身体中最具表现力的部分,具有很大的微妙性和灵活性,也许是所有身体部位追踪中问题最多的。

这段视频证明基于头显的实时脸部追踪正在研发中,但还有很长的路要走。

良好的实时躯体跟踪现在也已经展现可能性,尽管仍然需要大量的工作来使其强大。

虚拟人类的技术也引发了许多研究问题,但真正有趣的问题是:是什么使虚拟人物成为一个独特而令人信服的“人”?

答案藏在感知科学和社会互动心理学中,首先要做的就是收集大量数据。Yaser Sheikh在卡内基梅隆大学做了“圆形监狱”实验。我们来看一下这个例子。

这是Tomas Simon做的,非常酷。但是处理每两秒钟需要花费两个小时,因此距离实时还有很长的路要走。

全新的前沿

这些只是VR面临的一些挑战。要花很多年才能完全解决。当然还有许多其他挑战,如触觉的相互作用,更不用说全身触觉、嗅觉、前庭感和味觉等等。简而言之,虚拟现实是一个等待探索的广阔空间,我们需要的是更多的研究关注点。毫无疑问,数十年的创新还在未来等着我们。

在最纯粹的意义上,VR是一个巨大的挑战。显然,它是非常困难的,需要研究开发数十种技术,但这只是一半。虚拟现实是计算机革命七十多年以及数百年来信息技术发展的高潮。我们终于有能力使用我们人类演变成果中的全带宽和处理能力,构建一个界面,让我们与数字世界进行交互。

VR有潜力极大拓展人类的体验范围,如果成功,必定会成为我们这个时代最重要的技术之一。

如社区发表内容存在侵权行为,您可以点击这里查看侵权投诉指引