不用LLM，遗传编程可控Python代码！

【新智元导读】最近，来自谷歌、DeepMind等机构的研究人员，提出了一种基于AutoML-Zero的方法AutoRobotics-Zero，可以从零开始发现zero-shot策略。与仅优化模型参数的神经网络不同，ARZ可以构建具备完整表达能力的控制算法。

谷歌等团队发布了遗传编程最新成果——AutoRobotics-Zero（ARZ）。最新论文已被IROS 2023接收。

这是一种使用AutoML-Zero的搜索方法，能够构建紧凑、可解释的机器人策略，可以快速适应环境的剧烈变化。

即使在随机选择的一条腿折断后，ARZ策略能够控制步态，让其继续行走。

而这一挑战任务，在2个流行的神经网络基线MLP+LSTM中，取得了失败结果。

甚至，ARZ使用的参数和FLOPS比基线少得多。
英伟达高级研究科学家Jim Fan表示，令人耳目一新的机器人技术！无需LLM，甚至无需神经网络：只需使用进化搜索控制机器人的Python代码。可解释，并且自适应。

全新ARZ框架

现实世界中的机器人，面临着不同类型的挑战，比如物理磨损、地形障碍等等。

如果仅是依靠将相同状态映射到，相同动作的静态控制器，只能暂且逃过这一劫。

但不能将万事万物都映射出来，而需要机器人能够根据不同变化的环境，来持续调整控制策略。

要实现这种能力，它们必须在没有外部提示的情况下，通过观察行动如何随时间改变系统状态，来识别环境变化，并更新其控制以做出响应。

当前，递归深度神经网络是支持快速适应的常用策略表示法。然而，它的问题在于，单一，参数过高，难以解释。

由此，谷歌等研究人员提出了基于AMLZ的AutoRobotics-Zero （ARZ）方法，以支持四足机器人适应任务中动态、自我修正的控制策略进化。

研究人员将这些策略表示为程序，而非神经网络。

他们演示了如何从零开始，仅使用基本数学运算作为构建模块，进化出适应性策略及其初始参数。

自动发现Python代码，代表四足机器人模拟器的可适应策略

演化可以发现控制程序，这些程序在与环境交互的过程中，利用其感官-运动经验来微调其策略参数或即时改变其控制逻辑。

这就实现了在不断变化的环境条件下，保持接近最佳性能所需的自适应行为。

与AMLZ不同，研究人员为Laikago机器人设计了模拟器，在倒立摆任务（Cataclysmic Cartpole）中取得良好性能。为此，团队还放弃了AMLZ的监督学习范式。

图片新闻