1、端到端智能驾驶演进历程
目前,端到端自动驾驶架构的演进可以分为四个主要阶段:
第一阶段:感知“端到端”/“BEV+ transformer”(2021年由特斯拉提出):自动驾驶架构拆解为感知与预测决策规划两大模块。感知模块借助多传输器融合的BEV技术达成模块级“端到端”,引入transformer与crossattention方案,显著提升检测精度与稳定性,而规划决策模块仍以传统Rule-based方法主导。
第二阶段:决策规划模型化/“占用网络”(2022年由特斯拉提出) :架构模块组成维持不变,感知端延续前代解决方案。预测决策规划模块迎来重大革新,将预测、决策、规划功能整合至同一神经网络。尽管感知与决策规划均采用深度学习,但模块接口依人类理解定义,各模块仍独立训练。
第三阶段:模块化端到端/两段式端到端:(小鹏、华为、极氪当前应用方案)整体结构与上一阶段相似,网络结构细节与训练方案却大不相同。感知模块不再输出人类可理解结果,转而输出特征向量,预测决策规划模块依此生成运动规划。两模块输出转变,训练时必须通过梯度传导,实现跨模块联合训练。
第四阶段:OneModel/一段式端到端: (特斯拉、理想、Momenta当前应用方案)此阶段打破感知、决策规划等功能界限,从原始信号输入到最终规划轨迹输出,全程由单一深度学习模型完成。OneModel可基于强化学习、模仿学习实现,也可由世界模型衍生,实现高度集成与智能化。
2、端到端智能驾驶第一阶段
第一阶段:感知“端到端”/“BEV+ transformer”
定义:BEV(Bird’s Eye View,鸟瞰图视角)是在自动驾驶跨摄像头和多模态融合背景下形成的一种关键视角表达方式。其核心思想是将传统基于 2D 图像与测距的感知方式,转换为在鸟瞰视角下的 3D 感知框架,使环境信息的表达更加全面、直观和具备空间连续性。从实现路径来看,BEV 的核心在于以 2D 图像作为输入,输出可用于决策的 3D 场景框架。在这一过程中,如何高效地融合来自不同传感器(摄像头、毫米波雷达、激光雷达等)的特征信息,实现最优表达与空间映射,是技术实现的重点与难点所在。
Transformer 是另一项推动智能驾驶感知能力快速演进的核心技术。它是一种基于注意力机制的神经网络结构,由谷歌于 2017 年提出。与传统的 RNN、CNN 不同,Transformer 并不依赖串行数据处理,而是通过注意力机制挖掘序列中不同元素的关联关系,具备出色的特征提取与长依赖建模能力。这一特性使得 Transformer 能够灵活适配不同长度与不同结构的输入信号,在多传感器融合和环境建模中展现出显著优势。
在智能驾驶技术架构中,感知端到端一直是最早应用端到端技术的模块之一,也是实现自动驾驶能力跃升的关键组成部分。在早期的智能驾驶系统中,端到端技术主要集中于感知层,用于高效、实时地提取并融合环境信息。随着算法和算力的持续演进,决策规划等后端模块也开始逐步引入端到端方法,推动整体架构从分层式向一体化方向演进。
第一阶段:感知“端到端”/“BEV+ transformer”带来的影响
全面的视野覆盖,显著增强环境感知能力。BEV 感知通过融合车辆各个方向的多类型传感器数据(包括毫米波雷达、摄像头、激光雷达等),形成一个 360° 全方位、无死角的感知视野。这种全局视角突破了单一传感器的局限性,使车辆能够在复杂路况下获得更完整的环境信息,不仅对周边目标的识别更为清晰,也能够提前感知潜在风险,提高驾驶系统的环境建模精度与响应速度。
简化的决策路径,提升系统运行效率。通过将 3D 场景数据统一映射到 2D 平面,BEV 技术有效降低了数据处理的复杂度,显著减少了传统感知到决策规划的中间转换环节。这种信息表达方式让路径规划、障碍物识别与避让、车辆行为预测等决策过程更加直接、高效。结合 Transformer 的注意力机制,系统可以对关键区域进行聚焦处理,实现更灵活、更精准的动态决策能力,为端到端架构在实际驾驶场景的落地奠定了基础。
提升定位精度,强化复杂交通场景适应性。BEV 感知能够帮助自动驾驶系统更准确地估计自身与周围车辆、行人及障碍物的相对位置,特别是在城市道路、十字路口、交通高峰等复杂场景中,优势尤为突出。这种高精度空间感知能力提升了系统在动态环境下的稳定性与鲁棒性,也为高阶智能驾驶功能(如城区 NOA)提供了必要的技术支撑。
技术进步与标准化加速推动产业成熟。未来,随着深度学习算法持续迭代、芯片算力大幅提升,BEV 感知算法将在精度、效率和泛化能力上实现进一步跃升,可处理更复杂的交通环境和更大规模的数据流。同时,数据融合技术将成为研究重点,如何在多模态传感器的异构数据间实现高效融合,是提高系统鲁棒性和精确性的关键。
3、端到端智能驾驶第二阶段
第二阶段:决策规划模型化/“占用网络”
占用网络重塑环境感知,夯实智驾基础能力。占用网络(Occupancy Network)是自动驾驶“环境感知”环节的重要底层技术,其核心思想是通过对三维空间进行体素级划分与占用预测,构建更高精度的全局环境表示。与传统感知方法相比,占用网络能够有效弥补在“遮挡处理”“形状精细建模”“全局环境认知”等方面的短板,为后续的路径规划和行为决策提供更完整、更稳定的环境输入。随着算力持续提升与网络结构优化(如动态体素划分、稀疏卷积等),占用网络正逐步成为高性能智能驾驶系统中的关键模块,尤其适用于结构复杂、目标密集的城市道路场景。
体素级空间建模提升环境刻画精度。从本质上看,Occupancy Network 算法是一种 3D 空间分割任务。它通过将待感知的三维空间划分为固定大小的体素网格,并利用算法预测每个体素被目标类别占用的概率,实现对全场景的空间建模。这种方法不仅可以对已知的车辆、行人等目标进行精确刻画,还能识别数据集中未被标注的“泛目标”(General Objects),如土堆、石块等,从而实现开放集目标检测,提升系统的环境理解力。同时,相较直接输出 3D 目标框的算法,占用网络能对空间中的每个体素单元进行建模,因此对于不规则形状或边界模糊的目标,能够还原更丰富的几何细节和结构信息,增强整体环境表达能力。
占用网络增强三维表达,优于传统 BEV 方法。与 BEV 方法相比,占用网络的差异主要体现在目标表示方式上。BEV 采用二维平面投影,容易丢失高度信息与空间结构特征;而占用网络基于三维体素化网格,将物体分解为大量小立方体单元,能够更准确地刻画形状特征。体素越小,环境分辨率越高,场景还原也越接近真实。占用预测本身也可以与 BEV 结合——通过将体素化结果投影到鸟瞰图,实现保留空间信息的同时增强占用可视化,使感知结果更直观、可靠。
第二阶段:决策规划模型化/“占用网络”带来的影响
占用网络强化识别能力,夯实自动驾驶安全底座。研究占用网络对于强化自动驾驶系统的环境感知能力具有深远的战略意义。一方面,通过对场景三维占用率的深入分析,系统能够更精确地识别前景目标的位置、形状与姿态,有效减少因目标识别偏差带来的潜在安全风险。例如,在城市道路或拥挤交通环境中,占用网络可以显著提升对复杂障碍物(如异形车辆、临时路障、非标准结构体等)的识别精度,为车辆提供更高置信度的环境信息,确保驾驶安全性。
另一方面,三维占用率的预测不仅有助于提升目标检测的准确性,也能增强系统对背景环境的区分与理解能力,减少背景误识别带来的冗余干扰。当前,特斯拉、Waymo、百度Apollo等头部自动驾驶厂商都在探索类似 BEV+Occupancy Network 的感知融合方案,以在真实道路环境中实现更高的识别精度与动态场景适应能力。这一方向被视为从传统目标检测到语义级空间建模的重要技术跃迁。
此外,占用网络对路径规划的赋能也尤为突出。借助对全局三维场景的精准刻画,车辆可以实现更细粒度、更灵活的路径规划策略,尤其是在多车交汇、动态避障或复杂弯道等高难度场景下,表现出更强的环境适应能力。更为重要的是,面对多样化与不确定性较高的交通环境,占用网络的引入显著增强了自动驾驶系统的鲁棒性与稳定性,使其在夜间、雨雪、施工区域等复杂工况下依然能够保持可靠的感知与决策性能。这类能力对于真正实现 L4/L5 级自动驾驶至关重要,也被视为高阶智驾量产落地的关键技术基础。
4、端到端智能驾驶第三及第四阶段
第三及四阶段:OneModel/模块化端到端
模块化端到端(OneModel)通过深度学习将传统“感知—规划—控制”流程统一映射到单一模型中,减少任务拆解带来的累积误差,并实现整体优化。目前,特斯拉、Wayve、百度 Apollo、小鹏等企业均在加速布局相关技术路径,这一方向正成为高阶智能驾驶的重要演进路线。
技术原理方面,一段式端到端模型通常包含四大核心模块:(1)感知编码器:基于 CNN 或 ViT 提取摄像头、激光雷达、毫米波雷达等传感器的多尺度特征;(2)环境理解模块:通过时序建模(RNN、时序卷积、Temporal Attention)融合多帧信息,识别动态目标、道路结构与交通信号;(3)决策预测层:输出加减速趋势、变道意图、转向方向等驾驶决策;(4)控制生成器:将决策结果转化为执行信号,实现车辆实时响应。
架构类型主要分为两类:可解释端到端(模块化):在端到端框架下保留中间感知或预测模块输出,兼顾可调试性与安全性,Wayve、小鹏等多采用此类架构;黑盒端到端(One Model):直接输出轨迹/控制信号,代表如特斯拉 FSD,技术上限更高但可解释性和调试难度较大。
第三及四阶段:OneModel/模块化端到端带来的影响
数据驱动是端到端自动驾驶的核心支撑力量。根据学习原理划分,端到端自动驾驶系统可分为强化学习方法与模仿学习方法。其中,强化学习方法依赖在数以百万计的试错场景中训练模型,使其自主学习并掌握加减速、转向、变道等驾驶技能,对数据规模与计算能力的要求极高。而模仿学习方法则通过大规模标注数据和真实驾驶样本对模型进行监督训练,让算法快速学习人类驾驶经验,更适合在量产车场景中快速迭代。
大模型训练高度依赖高质量数据。端到端算法以数据为核心,其训练效果在很大程度上取决于数据的数量、标注质量、分布完整性与场景覆盖度。特别是在智能驾驶逐步走向高阶化的背景下,车端与云端协同成为关键一环:前者通过传感器矩阵(摄像头、激光雷达、毫米波雷达等)采集全量环境信息,后者依托云端存储和超算中心完成大规模训练。由此,数据标注体系、算力资源调度以及云端训练架构构成了企业技术护城河。也因此,虽然端到端具备更高技术上限与优化潜力,但其高数据依赖与算力门槛,也成为推广的现实挑战之一。
数据资产成为智能网联竞争的核心。在智能网联汽车时代,车辆通过传感器矩阵与云端互联,构建起覆盖驾乘体验、生活服务、娱乐办公的数字化生态,而数据本身已成为产业竞争的关键资产。车企的核心能力也由传统的硬件制造,逐步演进为对数据采集、解析和应用的综合实力比拼。谁能在真实道路场景中积累更多、更高质量的驾驶数据,并持续优化其训练闭环,谁就能在智能网联汽车的竞争赛道上占据先机。因此,智能驾驶技术的进步,本质上是一场由“数据—算法—算力”共同驱动的技术竞赛。持续的场景喂养和数据训练,是端到端智能驾驶能力跃升的核心引擎。
5、端到端智能驾驶已分化出两种核心路径
趋势:当前智能驾驶已分化出两条核心路径——VLA和世界模型
当前智能驾驶已分化出两条路径。2024 年夏季以来,端到端(End-to-End)智能驾驶技术格局发生显著变化,从 2023 年 “一家独大” 的单一技术路径,正式演进为两大核心路线并行发展的态势。其中,第一条路线为以 “视觉 — 语言 — 行为”(Visual-Language-Action, VLA)链路为核心的架构体系,第二条路线则是以物理推演为核心驱动力的世界模型(World Model)路线,VLA 和世界模型并不是完全对立,而是两条目前并行发展的技术路线:VLA 适合快速迭代、兼容现有量产平台,短期内易于落地。世界模型则代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。
VLA架构:VLA 架构的技术逻辑遵循 “感知 – 理解 – 决策 – 控制” 的全链路语义化转化,其核心流程可拆解为四步:首先通过图像传感器完成环境感知与图像识别;其次将视觉感知结果转化为可被大语言模型理解的语言 Token(如 “前方 50 米有静止车辆”“当前车道为潮汐车道”);再由大模型基于语言Token 生成符合人类驾驶逻辑的驾驶建议;最后将抽象建议转化为具体的车辆控制轨迹,并通过实时反馈机制进行动态校正。
世界模型架构:与 VLA 架构依赖 “语言中间层” 的技术逻辑不同,世界模型路线通过绕开语言转化环节,直接将 3D 高斯表征、点云等空间感知数据输入大模型,在模型潜空间内完成物理规律推演(如车辆碰撞风险预判、行人运动轨迹预测),并直接输出车辆控制指令,形成 “云端世界引擎 + 车端世界行为模型”的技术架构 —— 云端世界引擎负责大规模场景的物理规律建模与预训练,车端世界行为模型则基于实时感知数据进行快速决策。