Google DeepMind再放AI机器人大招!周五,这家前沿AI研究机构宣布以训练AI聊天机器人的方式训练了一款全新的机器人模型Robotic Transformer 2(RT-2)。
RT-2相当于机器人版ChatGPT,被Google DeepMind称作是其视觉-语言-动作 (VLA)模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态,能够解释人类用自然语言发出的指令,并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。
结合思维链推理,RT-2可以执行多阶段语义推理。即便是一些抽象概念,RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子,它会抓起石头;让它给疲惫的人选一款饮料,它会选择红牛;让它把可乐罐移到泰勒·斯威夫特的照片上,它也能顺利完成。
根据论文,RT-2模型基于网络和机器人数据进行训练,利用了谷歌自己的Bard等大型语言模型的研究进展,并将其与机器人数据(例如要移动的关节)相结合,然后将这些知识转化为机器人控制的通用指令,同时保留web-scale能力。
论文地址:
https://robotics-transformer2.github.io/assets/rt2.pdf
Google DeepMind博客文章写道,RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力,包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。
其将信息转化为行动的能力表明,机器人有望更快地适应新的情况和环境。
在对RT-2模型进行了超过6000次的机器人试验后,研究团队发现,RT-2在训练数据或“可见”任务上的表现与之前的模型RT-1一样好。它在新奇的、不可预见的场景中的表现几乎翻番,从RT-1的32%提高到62%。