追赶FSD V14，理想在补哪些课？｜最前线

11月21日

智能

熊猫体育围绕熊猫体育登录入口不断创新，回应用户的真实需求。
精选熊猫体育平台内容，熊猫体育与你一同发现更多精彩。

熊猫体育专注熊猫体育官网，为用户提供专业可靠的体验。

围绕熊猫体育APP，熊猫体育持续打磨更优质的服务。

熊猫体育专注熊猫体育官网，为用户提供专业可靠的体验。

熊猫体育深耕覆盖全球热门赛事的权威信息领域，用心服务每一位用户。

杰西卡·麦克戴德

杰西卡·麦克戴德

在提供专业数据分析与深度赛事解读方面，熊猫体育提供贴心周到的支持。

熊猫体育以连接体育教育资源与行业专家为核心，带来高效便捷的体验。

想了解更多推动中国体育人才培养与产业升级相关内容，尽在熊猫体育。

熊猫体育（中国）官方网站汇集全球热门体育赛事资讯，涵盖足球、篮球等赛事直播、实时比分、赛程安排及球队动态内容。平台同步更新赛事数据和精彩资讯，帮助用户快速掌握最新体育热点。

那些因未能尽责而失败的人，同样应受到指责。
逃避痛苦者，也可能因此错失应得的回报。
无人能阻碍我们追求所爱，除非有更大利益驱使。

除非为了从中获得某种益处？
分享本文

在智能驾驶行业，竞争焦点已历经多次演变。

起初，竞争围绕硬件展开，包括是否配置激光雷达、摄像头数量以及计算能力（TOPS）。随后，随着大模型时代的到来，竞争转向端到端、VLA（视觉-语言-行为）和World Model（世界模型）等技术路线。

如今，越来越多的公司认识到，拥有庞大的模型已不足以建立代际优势，决定技术上限的关键在于模型、数据、算力和芯片能否形成一个持续优化的闭环。

这一趋势促使更多车企选择自主研发。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全链条。在中国，小鹏、蔚来以及理想等品牌也在不断向更底层技术延伸。

理想汽车在其今年发布的L8和L9车型中已搭载自研的马赫M100芯片，该芯片采用了数据流架构，被理想视为AI领域的重要技术方向。同时，理想也在马赫M100上运行了自研的马赫VLA模型。

然而，行业更关心的是这些投入能否切实解决具体问题，而非仅仅是“是否自研”。

为了解答这一疑问，我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了交流。他们分享了理想对下一代自动驾驶技术路线的判断，并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下为访谈摘要，经过编辑：

问：为了在第四季度达到特斯拉FSD V14的水平，理想汽车还需要在哪些方面努力？

**詹锟：**我认为追赶FSD可以从两个层面来看。

首先是基础体验，具体体现在安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感、效率和舒适度方面表现出色，这是其核心优势。即使不处理极端路况，也能在这些基本功上达到同等水平。

其次是能力层面，这方面的追赶同样具有挑战性。例如，特斯拉能够识别并礼让特殊车辆，在高精度感知狭窄通行场景下表现出色，并能识别交警指挥，这些能力非常强大。

能力上的提升存在架构升级的机会。为什么某些能力只有特斯拉拥有？这可能与过往的范式限制有关，也可能源于架构或数据方面的因素。我们在这些方面进行了大量探索。

问：我理解马赫VLA是一个技术体系而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型，那么当前的智能驾驶模型是否还包含“L”（Language语言）的部分？

**詹锟：**当前自动驾驶架构的一个共同趋势是将VLA（视觉-语言-行为模型）与World Model（世界模型）整合。

从长远来看，所有技术路线都将朝着这个方向发展。无论是VLA还是World Model，其内部的Prompt（提示）都需要用到Language。因此，Language必不可少，关键在于如何应用它。

对于机器智能而言，我认为Vision Based（基于视觉）的路径更为合理，它能够更好地理解空间、感知三维空间并服务于环境。Language无疑是有价值的，它有助于理解环境、交通、指令以及复杂的决策制定。

从长远来看，基于Vision和Language的原生基础模型，可能是未来的发展趋势。

**谢炎：**若要实现L3、L4级别自动驾驶，并解决更泛化的问题，模型需要具备类似人类的思考能力。届时，语言的重要性将日益凸显，这也是未来需要巨大算力的原因。

如果模型仅具备Vision和Action（视觉和动作）能力，即使拥有大量数据，在面对分布之外的情况时也会束手无策。就好比动物即使学会了所有常见情况，遇到从未见过的情形也完全不知所措，无法做出正确的选择。

我们认为，随着向L3、L4级别的迈进，需要解决的问题越来越接近90%、95%、98%之后的问题——那些前所未见的情况，需要模型具备人类般的思考能力。而实现类似人类的推理和思考能力，其来源是语言模型。例如，理解交警的手势，判断其意图，这并非简单通过收集或生成数据就能解决。

问：随着理想汽车车队规模的扩大，内部是否感知到数据边际效应的递减？贵公司是如何定义价值数据的？

**詹锟：**首先，数据的量需要足够大，核心目标是收集更多Corner Case（长尾场景）。目前，业界有多种方法在车端部署优秀的Neural Trigger（神经网络触发器），用以判断场景的难易程度，并将关键数据回传。这也是特斯拉目前表现出色的重要原因之一。

其次，数据质量至关重要，尤其体现在行为质量上。当前，业界逐渐趋向于端到端范式，无论是VLA（视觉-语言-行为模型）、World Model（世界模型）还是Vision-Action（视觉-动作模型），都离不开对Action（行为）的准确把握。因此，行为的质量、干净程度以及一致性变得非常关键。

关于数据规模扩大后边际效应是否递减的问题，只要模型持续提升，能力向100分迈进，其增长曲线必然是对数增长，而非线性增长，这在任何AI公司都是如此。尽管后期数据收敛的速度会放缓，但我们希望通过规模效应来加速这一过程。

问：马赫M100能够运行于不同的AI场景，展望五年或更远的未来，理想汽车车内的算力中心是否可能全部采用自研的马赫芯片？

**谢炎：**尽管业界存在“舱驾一体”的说法，但我们认为舱驾一体的核心在于AI算力部分，其他部分的整合并非关键。座舱系统与AI智驾系统可以完全独立，但AI算力集中处理可以显著提升效率。

我们的路线图最终目标是构建一个车内AI计算中心，所有AI任务均在此处进行计算。这类似于笔记本电脑运行OpenClaw，AI计算并非在本地完成，而是在Token Provider Server（Token供应服务器）上进行，车内情况亦然，将设立一个Token Server（Token服务器）。

该Token Server的优势在于：第一，极高的效率。第二，能够实现不同任务的隔离，互不干扰。例如，智驾任务的确定性——无论是内存还是带宽，都能得到保障，不被其他任务影响，这是软硬件协同设计的结果。

问：是否因为M100采用了数据流架构，相比其他厂商的自动驾驶芯片，其对带宽的需求较低，但对片上存储的需求更高？

**谢炎：**我们对带宽的要求确实较低，但这并非直接决定SRAM容量（非显存）的原因。当前HBM（高带宽内存）备受关注，许多人认为带宽越高越好。计算、带宽、SRAM等都需要晶体管来实现，最终的设计是基于成本/综合性能等多方面权衡的结果。

简单地以一两个指标来对比不同架构设计是不合理且不专业的。这如同拳击比赛，身高和体重各有优势，但并非单一指标决定胜负，最终比拼的是运动本身的结果。

问：为何当前大算力芯片方案（如英伟达、小鹏、理想自研）并未实现芯片级的舱驾融合，而高通却在低算力芯片上进行了尝试？

**谢炎：**本质上，座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别的高端智驾而言，需要一个更高确定性的系统，包括专属内存和计算资源，此时融合的意义大大降低。因为资源无法实现实时切换，而实时切换会降低确定性。如果趋向于资源独占，融合的价值就不大了——即便将芯片整合，资源仍需分开配置，这并不能降低成本，甚至可能影响效率。

目前的舱驾融合系统，它们仍然是分开的，无法实现任务的快速切换。将两个芯片集成到一个芯片中，晶体管数量可能不变，仅节省了封装成本。对于中低端芯片而言，这部分成本可以节省，但幅度有限。

我的观点是，随着智驾系统越来越高端化，舱驾融合的意义可能不大。如果将这些芯片设计得更近，集成到同一块板上形成紧凑的方案，这是可行的，不一定非要集成到单一芯片，也可以是多芯片协同。

问：自研芯片需要哪些条件，例如销量、营收、研发投入。鉴于当前自动驾驶迭代速度快，芯片要持续迭代需要具备哪些条件？

**谢炎：**芯片的初期投入相当可观，可能每年需要数亿元。

首先，需要达到一定的营收规模。对于车企而言，年营收达到1000亿元以上，研发投入至少10%，即每年有数十亿至上百亿元的投入，才足以支撑芯片的研发。其次，研发的芯片必须能够显著提升产品的能力。

许多人认为芯片需要巨大的出货量才能实现成本摊薄。实际上，芯片的成本与面积相关。一辆车上的智驾芯片，例如Livis使用了两颗马赫M100，总面积约800平方毫米。而高端手机芯片的面积约为100平方毫米，因此一辆车的智驾芯片相当于8台手机的芯片面积。

如此计算，数十万辆车的需求将需要庞大的晶圆面积，足以摊薄成本。所以，成本不能仅以单颗芯片的数量来衡量。

问：动态数据流编译器的难点何在？攻克这一难题花费了多长时间？

**谢炎：**在芯片流片之前，甚至在设计阶段，我们就已开始进行编译器工作，并在流片前完成了许多模型的运行测试。

数据流是一种完全不同的架构，它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信和协作变得极其复杂，无法通过单一中央管理员来管理。传统的冯·诺依曼架构调度方式在此规模下不可行，这是一个超大规模并行调度的问题。