智能体如何从不同的语言中理解世界?近日,来自UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言。
现在,基于强化学习的智能体已经可以轻松地执行诸如「捡起蓝色积木」这类的指令。
但人类大部分时间的语言表达,却远远超出了指令的范围。 比如:「我们好像没有牛奶了」......
而智能体想要学习这类语言在世界中的含义,是非常困难的。
对此,来自UC伯克利的研究团队认为,我们实际上可以利用这些语言,来帮助智能体更好地对未来进行预测。
论文地址:https://arxiv.org/pdf/2308.01399.pdf
具体来说,研究人员提出了一种全新的智能体——Dynalang。
与仅用语言预测动作的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。
除了在环境中的在线交互中学习外,Dynalang还可以在没有动作或奖励的情况下在文本、视频或两者的数据集上进行预训练。
也就是说,新的智能体这时再听到「我们没有牛奶了」,就能get到这句话意思是「冰箱里的牛奶喝完了」。
工作原理
使用语言来理解世界自然而然地适合于世界建模范式。
Dynalang以基于模型的RL智能体DreamerV3为基础,并可利用其在环境中动作时所收集到的经验数据,不断地进行学习。
左:世界模型在每个时间步将文本和图像压缩为潜在表征。在这个表征中,模型被训练以重构原始观察结果,预测奖励,并预测下一个时间步的表征。直观地说,世界模型学会了在给定文本中所读内容的情况下,应该期望在世界中看到什么。
右:Dynalang通过在压缩的世界模型表征基础上训练策略网络来选择动作。它在世界模型的想象中反复进行训练,从而学会采取最大化预测奖励的动作。