如今,科技巨头主动肩负起机器人研发的重任,正你追我赶奔赴下一场科技盛宴。当地时间10月20日,英伟达、Meta各自发布了重磅机器人训练工具。
英伟达开发的AI代理Eureka可以教会机器人复杂的运动控制技能,比如转笔、打开抽屉和柜子、抛球和接球、操作剪刀。英伟达称这一突破将重新定义机器学习。
Meta则推出了Habitat 3.0模拟器,可教授机器人如何与物理世界进行交互,Meta将其称为“社交智能机器人研发路上的里程碑”。
究竟是什么样的工具?新成果的意义何在?
▌英伟达Eureka——大模型参与训练机器人
Eureka的全称是Evolution-driven Universal Reward Kit for Agent,本质是一种由大模型驱动的算法生成工具。借助GPT-4写代码的能力,Eureka拥有了出色的奖励函数设计能力,可以自主编写奖励算法来训练机器人。
Eureka的关键所在,是通过上下文来实现了人类水平的奖励算法设计。简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。
英伟达称,在29种不同的开源强化学习(RL)环境中,Eureka奖励设计的性能达到了人类水平,这些环境包括10种不同的机器人形态(四足机器人、四旋翼机器人、双足机器人、机械手以及几种灵巧手)。在没有任何特定任务提示或奖励模板的情况下,Eureka生成的奖励程序在超过80%的任务上优于专家编写的奖励程序。这使得机器人的平均性能提高了50%以上。