理想甩出全程端到端，猛追华为！3篇论文看懂李想的野心

国产汽车汽车保养 2024-07-15 40610

车东西（公众号：chedongxi）

作者｜ Janson

编辑｜志豪

理想和华为的竞争，从销量已经转入到了智驾领域。

车东西7月9日消息，日前，理想汽车亮出了其在自动驾驶领域所有的王牌，拿出了端到端+VLM大模型无图智驾技术，也引发了不少行业人员的关注。

目前来看，国内公认第一梯队的华为、小鹏已经实现其无图NOA系统的功能，并成功量产。

理想4D One Model

而这次理想直接搞了一个“4D One Model”的一体化决策网络，直接把感知决策合二为一，实现从数据输入到路径输出只经过一个模型，但目前距离全量推送还有距离，处于早鸟测试阶段。

华为ADS端到端路线图

从技术路线来看，华为的无图NOA有预决策和规划一张GOD（通用障碍物识别）大网+ PDP（预测决策规控）网络两部分组成，小鹏的XNGP则也是由神经网络感知网络XNet、规控大模型XPlanner和大语言模型XBrain三个部分分段完成智驾的感知到决策的过程。

小鹏端到端大模型示意图

目前来看理想这套端到端+VLM（视觉语言模型）系统也并非可以直接“大杀四方”，无论是端到端的系统一还是VLM的系统二，也都是黑盒状态，黑盒与黑盒之间的决策，对于后期的调优有着比较大压力。

华为ADS3.0作为目前最接近One Model的智驾方案提供商，即将于8月6日随着享界S9的发售量产上车。

而理想AD MAX这次搞了4D One Model这样的激进产品，可能的确在技术上多走一步，但距离全量推送上车还有距离，只能说从目前开通的早鸟体验来看，确实不再是PPT产品了，令人拭目以待。

综合来看，理想对比华为ADS3.0在技术上可以说“互有千秋”，一方面，华为的白名单决策只占其整体决策的一小部分，并没有太大的权重，距离“One Model”也十分接近，另一方面，华为的新技术将全量推送，占到了时间优势。

可以说，华为ADS和理想AD MAX目前在技术上只是节奏不同，最终还是要朝着L3/L4的目标前进。从这个角度来看，两家在技术上和量产速度上互有千秋，但整体上都是在不断向上提升的。

在“蔚小理”三家造车“新势力”中，理想之前对于智能驾驶的布局不是很多，甚至可以说是新造车中最弱的一个，也是在这两年有了资金之后，才开始疯狂补课。

同时，在“疯狂补课”后，理想可能也是第一个把自己的具体技术专门办一个发布会来给大家讲透彻的主机厂，可见其对自己的技术先进性是有一定自信的。

当然，在当下自动驾驶技术的研发过程中，包括特斯拉在内也没有谁获得了完全成功，都在摸索前进。

一、理想智驾推出双系统 PK华为智驾

这次发布会介绍的技术中，理想最与众不同的则是推出了面向Conner Case等复杂场景的“系统二”的概念，这一技术路线，此前似乎并没有太多玩家布局，绝大部分玩家还在使用白名单的方式人工排查。

理想这次在端到端的运用上可以说是相当的激进，4D One Model的做法在很大程度上已经不再依靠人来写规则，而是把绝大部分的决策都交给了AI来做。

这样的决定很可能也是从NPN路线切换到无图路线后，综合了理想目前在市场上的情况作出的决定。

理想智驾双系统理论

具体来说，在这种架构中，理想汽车提到的“端到端模型”对应于系统一，它负责快速响应和直觉性决策。

系统一采用的端到端大模型，有三个迭代阶段。

理想智驾系统端到端路线图

第一代，称为NPN，采用了模块化架构，依赖先验信息。

这个架构包括了感知、定位、规划、导航等多个模块，并通过规则将它们连接起来。这个阶段的架构支持了理想汽车在全国100个城市推出的城市NOA服务。

第二代，即无图NOA，采用了分段式端到端架构。

这个系统简化为只有两个模型：感知和规划。同样，这些模型通过规则相连，但与前一代不同的是，它去除了对先验信息的依赖，这意味着它可以在全国任何地方使用，只要有导航数据即可。

第三代是真正的端到端架构，它仅包含一个模型。

这个模型接收来自传感器的感知信息作为输入，并直接输出车辆的行驶轨迹。这个阶段代表了理想汽车在自动驾驶技术上的一个重要进步，即通过简化模型结构，实现了从输入到输出的直接映射，从而提高了系统的效率和响应速度。

而“VLM视觉语言模型”则相当于“慢系统”，即系统二，它涉及更深层次的思维推理。

理想智驾VLM决策图

理想汽车解释说，系统一类似于人类根据经验和习惯形成的直觉，能够进行快速决策，例如在回答“1+1=？”这样的简单问题时，几乎不需要思考就能立即给出答案。在驾驶过程中，大约95%的情况下是由系统一来处理的。

这样的系统一和业内主流的端到端智驾技术一样，注重低延迟、快速响应，面向绝大部分场景。

相比之下，系统二涉及到更为复杂的思维推理能力，它用于解决需要深入思考或推理的复杂问题，以及在遇到未知场景时的应对策略。在驾驶中，大约只有5%的情况下需要调用系统二。

对比华为ADS3.0来看，华为ADS3.0采用了一种结合少量人工规则与端到端模型的技术，并正逐步减少对人工规则的依赖。

该系统主要包含两个关键部分：GOD（通用障碍物检测）和PDP（预测决策规控）。

华为ADS3.0架构图

华为ADS系统起初从BEV（鸟瞰图）感知网络起步，专注于识别预定名单上的障碍物。到了2023年4月，华为推出了ADS3.0的更新版本，新增了GOD网络和PCR（道路拓扑推理）网络，标志着系统进入场景理解的新阶段，从而构建了GOD大网。

GOD大网使得ADS3.0在障碍物识别方面实现了较大的飞跃，从基础的障碍物识别跃升至全面的驾驶场景理解。这一进步显著增强了智能驾驶的安全性，并且优化了驾驶体验。

华为PDP网络示意图

同时，ADS3.0还采用了全新的PDP网络架构，将预测、决策和规划整合为一个统一的网络。这一架构让决策和规划过程更贴近人类驾驶员的行为，使行驶轨迹更加自然，提高了通行效率，特别是在复杂路口的通过率已超过96%。

可以说华为和理想在选择技术路线的时候也是异曲同工，都采用了通用+专用的做法。

不同的是，理想在解决Conner Case的时候也相当激进的采用了由AI进行推理和决策的黑盒，降低了人工算法的干预，华为ADS则还偏向保守，依然保留了人工算法的介入。

从结果来看，有人工规则的介入，方便开发调优，尽管华为保留了人工规则，但它们的“全国都可用”的确早了很多，在今年年初便已实现。

理想采用的双黑盒，由系统一和系统二统一共同构成了人类认知、理解和决策的基础则确实来的慢了一些，甚至很多优化连技术人员都不知道结果如何，调优成本较高，甚至存在负优化的可能，最终这样的产品在今天7月才开始早鸟体验。

一个是技术上激进但还没全量推送的理想，另一个则是一步一个脚印率先“开城”的华为，但从技术角度上去分一个孰优孰略确实意义不大，更多的还是要看市场和消费者的真实体验才是硬道理。

二、专攻长尾场景详解理想DriveVLM

相比于目前各大智驾玩家都搞得比较成熟，能够处理大约95%的驾驶场景的系统一，理想在剩余5%的复杂场景选择了DriveVLM支撑的系统二来完善智驾系统的深度理解和判断能力。

以天津为例，该城市有许多潮汐车道和单行道，这些道路通常通过LED灯或文字标识来指示。对于自动驾驶系统来说，不仅要清晰地识别这些标识，还要理解其含义并做出相应的驾驶决策。这时，系统二的能力就至关重要。

理想智驾“系统二”面临的场景

例如，当地面道路凹凸不平时，系统二会向系统一发出降速提醒，并通知驾驶员前方路面状况，以便自动驾驶系统可以更加平稳地通过。

在夜间或光线昏暗的场景中，系统二会指导系统一限制速度，以确保驾驶的安全性。

此外，系统二还能在主辅路走错的情况下进行判断，并能够识别出当前行驶路线与导航指示不符，从而提供切换导航的建议。这意味着系统2能够帮助系统1避免或纠正路线错误。

为了顺利实现这样的功能，理想提出了VLM（视觉语言模型）的概念，并在AD MAX的双Orin-X中的其中一颗上部署。

VLM推理效率提升示意图

然而，Orin并非专门为VLM这样的Transformer模型设计，部署在这样的平台上面临着效率和性能相关的问题。

根据DriveVLM研发团队在《DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》一文中，具体阐述了DriveVLM模型的部署和性能问题。

文章中提到，DriveVLM在Orin平台上的推理速度为1.5秒，这比传统的自动驾驶模型慢了5倍。显然，这样的速度无法满足自动驾驶对实时性的要求。

为了解决这一问题，DriveVLM团队提出了DriveVLM-Dual的概念，旨在提高模型的实时响应能力。

DriveVLM-Dual推理速度

解决了DriveVLM的推理延迟问题，可以深入探究一下这个22亿参数的VLM在解决问题上的具体流程。

DriveVLM模型在推理过程中主要采用了思维链（Chain of Thought, CoT）方法。

首先，DriveVLM对输入的图像序列进行整体描述，以捕捉环境的关键特征。接着，模型逐步分析场景中的重要元素，包括识别关键对象（如车辆、行人、交通标志等），分析这些对象的属性和状态，并评估它们对驾驶决策的潜在影响。

基于前面的分析，DriveVLM进行多步推理，考虑可能的行动选项，评估每个选项的潜在结果，并权衡不同因素（如安全性、效率、舒适性等）。

最后，模型生成具体的规划输出，包括高级动作描述（如”减速并让行”）和详细的决策解释，以及轨迹路径点。

这种推理过程使得DriveVLM能够像人类驾驶员一样进行深思熟虑的决策，从而提高自动驾驶的安全性和可靠性。

从“跑分”结果来看，DriveVLM模型在nuScenes数据集的规划任务上实现了相当先进的性能表现。（nuScenes是一个公开的自动驾驶数据集，常用于测试和评估自动驾驶系统的性能）

DriveVLM-Dual性能测试结果（越小越好）

对比华为ADS3.0来看，尽管它们没有提供更细节的资料，但是从目前ADS3.0发布会上的内容来看，华为的PDP网络也是在人工规则的基础上向大模型的方向在靠拢。

显然，华为这套方案也走得更快，即将在8月6日发布的享界S9即将首发量产这套方案，相比于理想的方案还是要快上不少的。

此外，华为也没有公布过其在智驾领域的最新进展，也许今年年末还会给消费者和市场带来新的惊喜。

三、数据训练成重点智驾转向全程端到端

在算法趋同的背景下，提升训练量成为了新的“兵家必争之地”，马斯克也曾公开强调，特斯拉FSD测试里程需要达到60亿英里（约合96.56亿公里），才能满足全球监管机构的要求。

而特斯拉4月6日公布的数据显示，FSD实际测试里程为10亿英里（约合16.1亿公里）。

可见现在几乎所有的智驾方案都在“卷”训练量。

理想方面提到，目前的简单3D生成场景“一眼假”，对于实际的智驾训练帮助不大，需要尽快找到合适的场景生成方式。

对此，华为MagicDrive3D和理想Diffusion Transformer两家的路线都不约而同的看向了高斯溅射技术。

从香港中文大学、香港科技大学、华为诺亚方舟实验室联合发布的论文《MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes》来看，此前的MagicDrive可以通过路线图、对象框和文本（例如天气）中的控件生成连续的摄像机视图。

然而，MagicDrive将所有内容投影到BEV地图或BEV control并不能确保街景生成的精确指导。