端到端大模型引领自动驾驶革命,理想、特斯拉等车企竞相布局
近日,理想汽车宣布基于端到端及VLM视觉语言模型和世界模型的全新一代理想智能驾驶正式开启万人体验团招募,新一代产品将进入有监督(L3级别及以下)自动驾驶的新阶段,理想汽车自动驾驶产品面向车主免费。
特斯拉是最早在智能驾驶上应用端到端大模型的企业。今年7月份,特斯拉公司CEO埃隆·马斯克表示,将在欧洲和中国申请监管批准以实施监督下的FSD,预计在今年年底前获得批准。而今年以来,理想、小鹏等多家车企力推端到端,这一技术方案较为火热。
信达证券发布的一份研报显示,“端到端”是指一端输入图像等环境数据信息,中间经历类似“黑箱”的多层神经网络模型,另一端直接输出转向、制动、加速等驾驶指令。与传统规则驱动的分模块架构相比,端到端的实现将带来一系列优势:完全基于数据驱动进行全局任务优化,具备更好、更快的纠错能力;能进一步减少模块间信息的有损传递、延迟和冗余,避免误差累积,提升计算效率;泛化能力更强,由Rule-based算法转向Learning-based,具备零样本学习能力,面对未知场景具备更强决策能力。
和传统的基于规则控制的智能驾驶辅助系统不同,端到端的自动驾驶解决方案意味着从感知到规控的全过程都通过先进的算法和深度学习技术进行处理。端到端技术在自动驾驶上的应用,把原本感知、预测、规划等多个模型组合的架构,变成了“感知决策一体化”的单模型架构。通俗来说,过去自动驾驶路线就好比多个人开一辆车,而端到端技术是单人开车,更加接近真实的人类驾驶。
“相比于以前模块化的模型,端到端更本质的方法是减少了各种信息的冗余。端到端的模型需要规则,有分模块的数据和分模块的策略任务。”理想汽车智能驾驶高级算法专家詹锟对记者表示,理想汽车的端到端本身想解决中间信息的损失,如果中间加了人为的信息消化过程,可能效率不是那么高或能力上限受到约束,所以一体化的端到端是更本质的端到端,其训练难度比分模块架构要大,包括数据配比和训练方法等方面都需要深入探索和挖掘。
理想汽车的端到端模型用于处理常规的驾驶行为,从传感器输入到行驶轨迹输出只经过一个模型,信息传递、推理计算和模型迭代更高效,驾驶行为更拟人;VLM视觉语言模型具备强大的逻辑思考能力,可以理解复杂路况、导航地图和交通规则,应对高难度的未知场景。同时,自动驾驶系统将在基于世界模型构建的虚拟环境中进行能力学习和测试。
“过去的智驾方案,不管是轻图还是无图,底层技术架构都是有人为设计成分的,如果想将一年四季各种情况都跑一遍,没有一两年时间是不可能实现。所以我们迭代了端到端+VLM技术架构,本质上是人工智能方案。”理想汽车智能驾驶研发副总裁郎咸朋对记者表示,自动驾驶研发的核心竞争在于是否有更多更好的数据和与之配套的算力去训练模型。而算力和数据的获取,需要看花多少钱、投入多少资源去做,同时需要投资算力。他透露,理想汽车当前训练算力达到5.39EFLOPS,预计到2024年底将超过8EFLOPS。目前每年在训练算力的投入超过10亿元,今年要消耗20亿元。
国信证券研报显示,当前汽车智能化已经具备端到端大模型的技术底层突破,国内市场远期具有近3000亿元的市场空间,智能驾驶奇点时刻渐近。不过,智驾领域需要大量的研发投入。不久前,极越汽车CEO夏一平在极越端到端AI智驾发布会上表示,200亿元曾被公认是造车的资金门槛,现在企业没有500亿元也做不好智驾。
“未来智能驾驶进入到L4阶段,每年数据和算力都是呈指数级的增长,这意味着每年至少需要10亿美金,5年之后需要持续迭代。在这样的量级下,一家企业的盈利和利润不能支撑投入的话是很困难的。所以,现在不需要关注投入多少亿做自动驾驶,而是从本质上出发,是否有充分的算力和数据支持,再看看需要投入多少钱。”郎咸朋表示。