自动驾驶的进程,因为大模型又起波澜。
近几年,自动驾驶近年发展迅猛,硬件预埋软件持续迭代的风潮下,车载算力急剧增长快速普及,但软件端功能进化滞后于算力。人们似乎开始接受要经过很长时间才能发展到自动驾驶。
但 ChatGPT 的出现带给自动驾驶行业很大启示。
ChatGPT 作为大语言模型的代表,通过对海量多模态数据的大规模自监督学习,借助「预训练+微调」的方式,让 AI 可以完成各种复杂自然语言任务,甚至通过了图灵测试——自动驾驶,被认为是下一个可能实现突破的领域。
北京智源人工智能研究院院长黄铁军甚至预测,三年之内可以实现高级别自动驾驶。
目前,在产业界很多公司都在「大模型上车」上进行探索。一部分自建大模型,商汤发布的日日新大模型,毫末智行发布了自动驾驶生成式大模型 DriveGPT——雪湖·海若;另一部分公司走联合路线,比如小鹏汽车联合阿里的大模型建立自动驾驶智算中心、斑马智行接入阿里大模型等。
「大模型上车」目前重点进展:
数据标注——特斯拉等公司,通过大模型优化数据标注,降低了人工标注比例和成本;
仿真优化——提升虚拟训练环境的真实性,优化虚拟训练数据;
优化感知——利用大模型能力,优化多个环节的小模型,提高感知效果;
端到端——利用生成式预训练大模型技术,让自动驾驶模拟类似人脑驾驶的能力。
大模型会如何影响智能驾驶?现在有哪些公司和团队,已经开始实践「大模型上车」了?它真的能让无人驾驶更快到来吗?
01.小模型 VS 大模型
智能驾驶行业,经历了一个模型「从小到大」的过程。
目前已量产的智能驾驶,绝大多数采用的是模块化架构。简而言之,模块化是将智能驾驶系统拆分为多个典型任务,并由专门的 AI 模型或模块处理。
现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分组成。感知模块就像是人的眼睛和耳朵,负责对外部环境进行感知;控制模块就像人的双手和双脚,负责最终的加减速、转向等操作;而决策规划模块就像人的大脑,基于接收到的感知等信息进行行为决策和轨迹生成。
在此架构下,每个大模块可能包含多个小模型的组合。如感知模块可能包含分类、追踪和定位等不同 AI 模型,各司其职。
不过,随着软硬件升级与逐步深入,自动驾驶对于计算能力和海量数据处理能力的需求暴增,传统各个小模型「堆叠」的方案,已经无法满足城市自动驾驶的需求。比如,「堆叠」造成信息失真以及算力浪费,而每个小模型的技术「天花板」也会导致整体解决方案受限。
举个简单例子,小模型就像一个小孩,他非常擅长看图和听故事,可以快速地找到图片中的物品或者听懂一段故事的意思。但是,如果这个故事太长或者太复杂,他可能就会听不懂或者忘记了。