当前位置: 江南文明网 > 科技 > 智能 >

不用LLM,遗传编程可控Python代码!

条评论

不用LLM,遗传编程可控Python代码!

【新智元导读】最近,来自谷歌、DeepMind等机构的研究人员,提出了一种基于AutoML-Zero的方法AutoRobotics-Zero,可以从零开始发现zero-shot策略。与仅优化模型参数的神经网络不同,ARZ可以构建具备完整表达能力的控制算法。

谷歌等团队发布了遗传编程最新成果——AutoRobotics-Zero(ARZ)。最新论文已被IROS 2023接收。

这是一种使用AutoML-Zero的搜索方法,能够构建紧凑、可解释的机器人策略,可以快速适应环境的剧烈变化。

即使在随机选择的一条腿折断后,ARZ策略能够控制步态,让其继续行走。

而这一挑战任务,在2个流行的神经网络基线MLP+LSTM中,取得了失败结果。

甚至,ARZ使用的参数和FLOPS比基线少得多。
英伟达高级研究科学家Jim Fan表示,令人耳目一新的机器人技术!无需LLM,甚至无需神经网络:只需使用进化搜索控制机器人的Python代码。可解释,并且自适应。

全新ARZ框架

现实世界中的机器人,面临着不同类型的挑战,比如物理磨损、地形障碍等等。

如果仅是依靠将相同状态映射到,相同动作的静态控制器,只能暂且逃过这一劫。

但不能将万事万物都映射出来,而需要机器人能够根据不同变化的环境,来持续调整控制策略。

要实现这种能力,它们必须在没有外部提示的情况下,通过观察行动如何随时间改变系统状态,来识别环境变化,并更新其控制以做出响应。

当前,递归深度神经网络是支持快速适应的常用策略表示法。然而,它的问题在于,单一,参数过高,难以解释。

由此,谷歌等研究人员提出了基于AMLZ的AutoRobotics-Zero (ARZ)方法,以支持四足机器人适应任务中动态、自我修正的控制策略进化。

研究人员将这些策略表示为程序,而非神经网络。

他们演示了如何从零开始,仅使用基本数学运算作为构建模块,进化出适应性策略及其初始参数。

自动发现Python代码,代表四足机器人模拟器的可适应策略

演化可以发现控制程序,这些程序在与环境交互的过程中,利用其感官-运动经验来微调其策略参数或即时改变其控制逻辑。

这就实现了在不断变化的环境条件下,保持接近最佳性能所需的自适应行为。

与AMLZ不同,研究人员为Laikago机器人设计了模拟器,在倒立摆任务(Cataclysmic Cartpole)中取得良好性能。为此,团队还放弃了AMLZ的监督学习范式。