700万美元种子融资的背后:Embodied的愿景与颠覆
取决于你问的人是谁,机器人抓握行为的发展将有所不同。物理抓握一个对象,然后完成有意义的动作是机器人研究的一个方向。困难的地方在于,判断抓握“什么”以及“如何”进行抓握。这一点十分困难,尤其是在结构式环境之外。
这是目前机器人的一个决定性问题:只要你每一次都确切地告诉它们这是什么,机器人可以完成任何你交待的任务。对于机器人在工厂里重复完成同样的任务,这不是一个问题。但当你加入新的或混合其他不同的东西时,这将成为一个非常令人头痛的问题。
在过去几年中,加州大学伯克利分校的Pieter Abbeel等研究人员一直在研发教导机器人掌握新技能的方法,亦即“学习”而不是“服从”。日前,Abbeel和来自加州大学伯克利分校和OpenAI的数位同事正式挂牌创办了一家名为Embodied Intelligence的新创业公司,并且成功完成了700万美元的种子轮融资。他们希望“工业机器人手臂能像人类一样感知世界和做出行动,而不仅仅只是遵循预编程的轨迹”。
对于Embodied的目标,他们在新闻稿中说道:“我们正在创建这么一种技术,令现有机器人硬件能够处理当前解决方案无法实现的更广泛任务,例如复杂形状的箱体拾取,配套,装配,不规则堆栈与卸垛,以及操作可变形物体,比方说电线,织物,亚麻布,流体袋和食物等。为了使现有机器人掌握这些技能,我们的软件建立在深度强化学习,深度模仿学习和少量学习(few-shot learning)的最新进展上…其结果不仅只是机器人技能库中的一套新技能,还包括一种可以在短时间内完成新任何的学习型机器人。”
任何熟悉加州大学伯克利分校机器人学习实验室(RLL)的人都将十分清楚这里的背景。尽管机器人自动叠毛巾可能是RLL最为人所熟知的研究,但这间实验室一直通过演示来研究适应性学习。
这里展示了两件重要的事情。首先,人类向机器人演示了在没有任何明确编程需要的情况下进行打结,然后将演示推而广之,把这项技能应用于未来的的打结任务中。这指向了第二件重要的事情:由于没有固定装置,绳索可以是各种不同的配置,所以机器人必须要能够识别并相应地修改其行为。
虽然人类可以毫不费力地完成这样的任务,但当前的机器人尚无法做到,这就是为什么人类和机器手臂之间会存在如此巨大差距的原因。Embodied希望通过可以快速灵活学习新技能的机器人来弥合这种差距。
Abbeel说:“大约在2012年,我们得出的结论是,用我们一直遵循的更加工程化的方法来达到我们想要实现的能力非常困难。它们存在很多的机器学习,但这是机器学习和工程的相结合。”后来,人工智能领域出现了突破:斯坦福大学的ImageNet项目表明,如果你愿意收集足够的数据并为你的任务训练一个庞大的深度神经网络,机器学习可以比以往做的更多。
Abbeel及其团队从此开始“非常努力地研发强化学习和模仿学习”。他说道:“我们已经达到了一个我们认为已经成熟的时机,现在是时候开始实践,不一定是需要需要处理大量变化的家庭机器人,认识制造和物流领域。”
Embodied的目标是重复性的操作任务,以及需要经常对机器人重新编程的任务。Abbeel指出:“在实践层面上,我们正在建立一个能够非常快速地学习新技能的软件系统,这与传统的自动化有很大的不同。”
他们的构思是,借助一个足够灵活的学习框架,编程将变得微不足道,因为机器人只需在一开始时获取一定的人类示范即可快速教导自己新的技能。正如Abbeel所解释的一样,“最大的区别是,我们为所有的应用带来了只需提前写入一次的软件。要令机器人适用于特定的应用,我们只需要收集该应用的新数据。这是一次范式改变,从需要为每个特定任务重新编程变成只需编程一次,然后通过示范或强化学习来收集数据。”
在过去几年间,教导机器人新技能正在快速发展。正如你在打结视频中看到的一样,在过去你需要物理移动机器人并按下控制器上的按钮。大多数工业机器人都是以相同的方式工作,亦即通过某种教学挂件。这是一种耗时,不是特别直观的方法,而且这在机器人正在经历的事情和人类老师正在经历的事情之间制造了一个空隙,因为人类的视角(甚至整个感知系统)与机器人完全不同。
基于RLL最近的一些研究,Embodied正在采取一种基于虚拟现实的新方法。Abbeel解释说:“真正有趣的是,我们已经达到了虚拟现实可以成为商品的地步。这意味着你实际上可以在机器人的虚拟现实中教导机器人,这样机器人就可以完成所有工作。就数据质量而言,这是一个巨大的变化。”
因为以这种方式收集的数据质量非常高,教导机器人掌握新技能要快很多。在本文的视频中,教导机器人完成每个任务只需要30分钟的时间(有时候显著更少),而成功率非常高(80%多,最高为90%)。请记住,系统正在学习一项技能,而不是一系列的行动,这意味着它拥有可适应性,可处理未经专门训练的任务。这对研究环境之外的操作至关重要。
一旦最初的演示阶段结束,机器人或许不能像人类一样快速行动,而且也可能不像人类那般可靠。成功率达到80%或90%对研究成果而言十分优秀,但对制造业的机器人来说或许还不够好,尤其是如果速度过慢。Embodied明白这一点,但Abbeel指出:“它可能达不到100%的准确性,它可能无法以人类速度行动,但通过强化学习,下一阶段的机器学习可以进一步完善过程和加速执行速度,而这一切将能赋予你一个新的技能。”
Embodied将专注于目前机器人所不擅长的视觉运动技能(你需要不断的视觉反馈来执行正在进行中的任务)。操纵电线和缆线是一个很好的例子。如果你希望机器人能够把一件东西塞进另一件东西,它必须能够在任意位置和方向上识别和抓握一件柔软的东西,而这可能难以进行明确的编程。
对于Embodied能够教导机器人掌握的技能复杂性,Abbeel表示指出:“只要一个人能遥控机器人去做这个工作,这应该就能学习掌握。当然,任务越复杂,需要的数据就越多。这是我们需要随着时间推移才能得出的结论,亦即给定任务所需要的数据量。但实际的指标是,我们坐在控制中心的背后,我们试图用机器人来完成任务,如果我们能做到,那我们知道这将在我们可以提供的范围之内。“
值得一提的是,这个领域中的企业不仅只有Embodied。其他包括Kindred,Kinema Systems和RightHand Robotics等等。这些企业都在研发机器人操纵解决方案,其可以在一定程度上管理变化并适应新的任务。我们需要一定的时间才能比较Embodied Intelligence的解决方案孰优孰劣,而Abbeel表示他们将在未来几个月内发布更多的演示视频。