ChatGPT出现之后,大模型在人工智能领域的地位进一步提升。众多AI应用方向都开始寻求与大模型的结合,以争取更高效率的产品落地进程,自动驾驶也不例外。
7月6日到8日,2023年世界人工智能大会在上海举办。在“AI与新一代车载智能感知融合创新论坛”上,大模型成为学界与业界人士的共同话题。
清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东,从技术底层视角提出了大模型的“云-边-端”自动驾驶部署框架——以“ChatGPT/GPT”为云端,以垂域BEV(Bird's-eye-view,鸟瞰图视角)多模态GPT为边缘端,以局部自主及传感执行为移动端。其中,云端理解为具备知识理解、预测以及决策能力的“大脑”,边缘端理解为进行动态感知与理解的视觉智能。
邓志东认为,整个过程中最大的挑战在于如何构建垂域多模态GPT。
对此,他表示可以将自动驾驶算法设定为一系列任务,包括感知、预测、决策/规控三大主任务,以及环境监测、在线建图、多轨迹预测、占用栅格预测等一级任务(顺序模块)。而解决这些任务可以通过三条路径:
第一条路径是设定多任务,进行联合预训练,但这条路径如果用弱人工智能的方式来操作,比如没有通过语言建模将这一系列的数据模块串联起来,就可能缺乏语言智能;
第二条路径是构建自己的多模态通用大模型。“但是我觉得这个事情挑战很大,因为我想我们中国现在最大的任务是怎么追赶上ChatGPT,做到我们自己的GPT 4.0。”他说,“这个就已经很了不起了,但这也是比较困难的,目标比较远大。”
第三条路径是利用已有的ChatGPT/GPT 4.0构建自己的垂域多模态GPT。邓志东表示,可以利用这种“还不是非常完美”的通用语言模型作为“骨头”,将其能力视为“云”,通过对通用语言模型进行微调(知识迁移)在云上做一个操作系统——这也是他认为比较现实的一条路。
邓志东认为后两条路径都利用了大模型和人类共有的语言智能,也正是这种语言智能可以将顺序模块进行一体化串联。“没有多模态的语言智能就没有灵魂。”他说。同时,他例举了大模型语言智能能够贯穿的各个环节,包括从多摄像头多帧输入到向量空间的3D感知等等。
此外,邓志东还例举了大模型将为自动驾驶带来的其他方面影响,包括基于大模型的人车语音自然交互和远程安全接管预测,以及自动驾驶生成式数据闭环和云边端AI算力需求。