OpenAI成功的背后，鲜为人知的游戏训练史

2022年，OpenAI旗下ChatGPT横空出世，人工智能再次成为全球瞩目的焦点。ChatGPT的成功得益于OpenAI团队在人工智能大语言模型和强化学习领域持续不断地投入、探索和创新。但鲜为人知的是，在OpenAI不断迭代升级的过程中，电子游戏也曾发挥过举足轻重的作用。早期的OpenAI 曾在2019年打造出名为OpenAI Five的游戏AI，并成功击败了两届DOTA2国际邀请赛的世界冠军OG战队（恭喜OG！）。

前几天，来自斯坦福大学和谷歌的研究人员也构建了一个名为Smallville的2D虚拟游戏场景，并将25个基于ChatGPT的AI智能体置于该游戏场景中进行训练，研究发现25个AI智能体实现了对人类行为的可信模拟，他们不仅能够相互交谈，还能够与自身所处环境互动，记住并回忆它们所做的和观察到的事情，并作出相应决策。[1]

那么，为什么OpenAI会选择电子游戏作为训练和测试AI模型，电子游戏对于AI的发展究竟意味着什么？

鲜为人知：Open AI团队，为AI打造专属“游戏训练”平台

在展开OpenAI与DOTA2的故事之前，不妨简要回顾下电子游戏与OpenAI那段鲜为人知的历史，或许能够帮助我们更好的理解电子游戏与OpenAI之间的关系。

成立于2015年12月美国旧金山，OpenAI最初是一个由小团队组成的非盈利性质的人工智能实验室，其目标是通过与其他机构和研究者的“自由合作”，向公众开放AI专利和研究成果。OpenAI在成立之时并未获得太多关注，在成立一年后（2016年12月），OpenAI对外发布了首款产品基于电子游戏的AI测试平台“Universe”。这是一款能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台，其发布时间甚至早于第一代GPT（基于转换器的生成式预训练模型）产品。

OpenAI 的Universe是一个训练 AI 通用智能水平的开源平台，由微软、英伟达等公司参与建设，其中包含多达1000多种游戏训练环境，主要包括了各类Flash游戏、Atari 2600游戏，以及《GTA 5》等PC游戏。OpenAI研究人员介绍说，Universe平台最初是从李飞飞等人创立的ImageNet数据库项目中获得启发，希望把ImageNet在降低图像识别错误率上的成功经验引入到通用人工智能的研究上来，取得实质进展。[2]

对于OpenAI而言，打造Universe的最终目标是训练出一个“通用人工智能”，可以灵活地将在训练环境中积累和掌握的经验快速应用到陌生、困难的环境。

当时的人工智能发展已经在“听、说、看”感知智能取得了一定突破，基于强化学习的AlphaGo也刚刚击败了人类围棋世界冠军，但在OpenAI团队看来，这些突破依旧没有跳出“弱人工智能（Narrow AI）”的范畴，并不具备理解问题的和解决问题的能力。[2]

OpenAI团队认为，要想让人工智能具备这种能力，就必须将其置于更为广泛和复杂的环境中进行训练，只有通过不断的训练，才能让人工智能发展出可以有效迁移复用的知识和问题解决策略，而电子游戏就是这个“训练环境”的绝佳选择。[3]

最佳陪练：OpenAI从DOTA2中学到了什么？

事实上，早在2017年的DOTA2国际邀请赛上，OpenAI的智能体已经能在1v1比赛中击败过顶尖人类职业选手；在2018年DOTA2国际邀请赛上崭露头角，与人类玩家组成的职业战队过招；而到了2019年4月，OpenAI对外宣布旗下的智能体项目OpenAI Five已经能够在5V5的比赛中击败DOTA2世界冠军OG职业战队，成为了首个击败电子竞技游戏世界冠军战队的AI系统。

OpenAI团队为什么要选择DOTA2作为训练环境呢？在开发OpenAI five之前，OpenAI团队一直在探寻如何让AI在深度强化学习方向上实现突破，创造性地提升智能体的效率。当时，一般强化学习（RL）的研究人员倾向于认为，如果想让智能体在长时间游戏中表现出色，就难免需要一些根本上的新突破，比如采用Hierarchical Reinforcement learning（分层强化学习）的方式，即将复杂问题分解成若干子问题（sub-problem），通过分而治之(divide and conquer)的方法，逐个解决子问题从而最终解决一个复杂问题。[4]

OpenAI成功的背后，鲜为人知的游戏训练史