大模型的出现对自动驾驶来说意味着什么？

ChatGPT出现之后，大模型在人工智能领域的地位进一步提升。众多AI应用方向都开始寻求与大模型的结合，以争取更高效率的产品落地进程，自动驾驶也不例外。

7月6日到8日，2023年世界人工智能大会在上海举办。在“AI与新一代车载智能感知融合创新论坛”上，大模型成为学界与业界人士的共同话题。

清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东，从技术底层视角提出了大模型的“云-边-端”自动驾驶部署框架——以“ChatGPT/GPT”为云端，以垂域BEV（Bird's-eye-view，鸟瞰图视角）多模态GPT为边缘端，以局部自主及传感执行为移动端。其中，云端理解为具备知识理解、预测以及决策能力的“大脑”，边缘端理解为进行动态感知与理解的视觉智能。

邓志东认为，整个过程中最大的挑战在于如何构建垂域多模态GPT。

对此，他表示可以将自动驾驶算法设定为一系列任务，包括感知、预测、决策/规控三大主任务，以及环境监测、在线建图、多轨迹预测、占用栅格预测等一级任务（顺序模块）。而解决这些任务可以通过三条路径：

第一条路径是设定多任务，进行联合预训练，但这条路径如果用弱人工智能的方式来操作，比如没有通过语言建模将这一系列的数据模块串联起来，就可能缺乏语言智能；

第二条路径是构建自己的多模态通用大模型。“但是我觉得这个事情挑战很大，因为我想我们中国现在最大的任务是怎么追赶上ChatGPT，做到我们自己的GPT 4.0。”他说，“这个就已经很了不起了，但这也是比较困难的，目标比较远大。”

第三条路径是利用已有的ChatGPT/GPT 4.0构建自己的垂域多模态GPT。邓志东表示，可以利用这种“还不是非常完美”的通用语言模型作为“骨头”，将其能力视为“云”，通过对通用语言模型进行微调（知识迁移）在云上做一个操作系统——这也是他认为比较现实的一条路。

邓志东认为后两条路径都利用了大模型和人类共有的语言智能，也正是这种语言智能可以将顺序模块进行一体化串联。“没有多模态的语言智能就没有灵魂。”他说。同时，他例举了大模型语言智能能够贯穿的各个环节，包括从多摄像头多帧输入到向量空间的3D感知等等。

此外，邓志东还例举了大模型将为自动驾驶带来的其他方面影响，包括基于大模型的人车语音自然交互和远程安全接管预测，以及自动驾驶生成式数据闭环和云边端AI算力需求。

大模型的出现对自动驾驶来说意味着什么？

大模型的出现对自动驾驶来说意味着什么？

图片新闻

热门

推荐