华为、特斯拉带头车企卷入“大模型”军备竞赛

自动驾驶的进程，因为大模型又起波澜。

近几年，自动驾驶近年发展迅猛，硬件预埋软件持续迭代的风潮下，车载算力急剧增长快速普及，但软件端功能进化滞后于算力。人们似乎开始接受要经过很长时间才能发展到自动驾驶。

但 ChatGPT 的出现带给自动驾驶行业很大启示。

ChatGPT 作为大语言模型的代表，通过对海量多模态数据的大规模自监督学习，借助「预训练+微调」的方式，让 AI 可以完成各种复杂自然语言任务，甚至通过了图灵测试——自动驾驶，被认为是下一个可能实现突破的领域。

北京智源人工智能研究院院长黄铁军甚至预测，三年之内可以实现高级别自动驾驶。

目前，在产业界很多公司都在「大模型上车」上进行探索。一部分自建大模型，商汤发布的日日新大模型，毫末智行发布了自动驾驶生成式大模型 DriveGPT——雪湖·海若；另一部分公司走联合路线，比如小鹏汽车联合阿里的大模型建立自动驾驶智算中心、斑马智行接入阿里大模型等。

「大模型上车」目前重点进展：

数据标注——特斯拉等公司，通过大模型优化数据标注，降低了人工标注比例和成本；

仿真优化——提升虚拟训练环境的真实性，优化虚拟训练数据；

优化感知——利用大模型能力，优化多个环节的小模型，提高感知效果；

端到端——利用生成式预训练大模型技术，让自动驾驶模拟类似人脑驾驶的能力。

大模型会如何影响智能驾驶？现在有哪些公司和团队，已经开始实践「大模型上车」了？它真的能让无人驾驶更快到来吗？

01.小模型 VS 大模型

智能驾驶行业，经历了一个模型「从小到大」的过程。

目前已量产的智能驾驶，绝大多数采用的是模块化架构。简而言之，模块化是将智能驾驶系统拆分为多个典型任务，并由专门的 AI 模型或模块处理。

现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分组成。感知模块就像是人的眼睛和耳朵，负责对外部环境进行感知；控制模块就像人的双手和双脚，负责最终的加减速、转向等操作；而决策规划模块就像人的大脑，基于接收到的感知等信息进行行为决策和轨迹生成。

在此架构下，每个大模块可能包含多个小模型的组合。如感知模块可能包含分类、追踪和定位等不同 AI 模型，各司其职。

不过，随着软硬件升级与逐步深入，自动驾驶对于计算能力和海量数据处理能力的需求暴增，传统各个小模型「堆叠」的方案，已经无法满足城市自动驾驶的需求。比如，「堆叠」造成信息失真以及算力浪费，而每个小模型的技术「天花板」也会导致整体解决方案受限。

举个简单例子，小模型就像一个小孩，他非常擅长看图和听故事，可以快速地找到图片中的物品或者听懂一段故事的意思。但是，如果这个故事太长或者太复杂，他可能就会听不懂或者忘记了。

图片新闻