烧钱六年,Dojo 被判死刑:马斯克自研超算梦是怎么走进死胡同的?

来源: InfoQ - AI&大模型

原文

多年来,埃隆·马斯克一直对Dojo项目的前景念念不忘。这台AI超级计算机本该成为特斯拉AI雄心的基石,也无怪乎马斯克会在2024年7月表示,在当年10月推出自动驾驶出租车之前,该公司AI团队将启动Dojo投入“倍增”行动。

但经过六年炒作,特斯拉最终于上个月决定关闭Dojo,并于2025年8月解散了超算项目团队。几周前,马斯克还曾预测Dojo 2(特斯拉的第二个超级集群,计划采用公司自研的D2芯片构建)将在2026年实现规模落地,但短短几周后就改变主意,称开发“进入了死胡同”。

本文将向大家介绍Dojo项目是什么,又如何帮助特斯拉一步步推动全自动驾驶、自主人形机器人、半导体自主等战略目标。这个现已关停的项目,曾经由一众分析师和投资者相信特斯拉不再仅仅是一家汽车制造商,更是一家AI公司。

Dojo是特斯拉打造的定制化超级计算机,旨在训练其“全自动驾驶”(FSD)神经网络。

Dojo的发展与特斯拉实现FSD并面向市场推出自动驾驶出租车的目标密切相关。作为特斯拉旗下高级驾驶辅助系统,FSD已经搭载在数十万特斯拉汽车之上,能够执行部分自动驾驶任务,但仍要求驾驶员将注意力集中在路面上。今年6月特斯拉在奥斯汀发布的、搭载在Model Y SUV上的有限自动驾驶出租车服务,同样以这项技术为基础。

说了这么多,特斯拉却并未将自动驾驶的成功归结于这台超级计算机。相反,马斯克和特斯拉在过去一年间几乎不再提起Dojo。2024年8月,特斯拉开始推广Cortex,该公司“在奥斯汀总部建设的全新巨型AI超级集群,旨在解决现实世界 的AI问题。”马斯克曾提到,Cortex将拥有“可容纳FSD和Optimus视频训练的海量存储空间”。

在特斯拉2024年第四季度的股东大会上,该公司分享了Cortex的最新动态,但同样未提及Dojo。目前尚不清楚Dojo的关停是否会对Cortex造成影响。

人们对Dojo项目解散的反应则褒贬不一。有人认为这是特斯拉电动汽车销量下滑、自动驾驶出租车推广乏力下的必然结果,也有人认为Dojo的解散并不代表项目失败,而是特斯拉正从高风险、自给自足的硬件研发策略转向由合作伙伴提供芯片开发服务的新路径。

Dojo项目关停回顾

特斯拉于2025年8月中旬解散了Dojo团队,并宣告项目正式终止。此前,已经有约20名员工离开公司,并创办了AI芯片与基础设施厂商DensityAI。Dojo项目负责人Peter Bannon也一并离职。

分析人士指出,失去关键人才会导致项目迅速崩盘,特别是这种专业化程度极高的内部技术项目。

就在几周前,特斯拉与三星签署了一项价值165亿美元的协议,将下一代AI6芯片的研发任务交给三星。AI6芯片是特斯拉高度关注的一款产品,其应用范围涵盖驱动FSD及Optimus人形机器人、乃至数据中心高性能AI训练等诸多领域。

马斯克在他掌控的社交平台X上发帖称,“考虑到所有路径都明确指向AI6,我只能选择关闭Dojo并做出一系列艰难的人事决策。现在Dojo 2的开发已经走进了死胡同。Dojo 3则仍在以另一种形式延续,即以单片板上集成大量AI6芯片(片上系统)。”

特斯拉Dojo项目的来历

马斯克坚称,特斯拉不仅仅是一家汽车制造商或者太阳能电池板/储能系统供应商,更是一家AI公司——一家通过模仿人类感知攻克自动驾驶汽车难题的企业。

多数其他自动驾驶汽车技术厂商会依靠大量传感器(例如激光雷达、传统雷达和摄像头)来感知世界,并利用高清地图实现车辆定位。但特斯拉认为只靠摄像头捕捉视觉数据,再使用先进的神经网络处理这些数据就足以快速完成车辆行驶决策,最终实现完全自动驾驶。

特斯拉曾经扬言,经过Dojo训练的AI软件最终将通过无线更新方式交付给产品客户。FSD的庞大普及规模,也意味着特斯拉能够收集数百万英里的视频片段以用于训练FSD。收集到的数据越多,公司距离真正实现全自动驾驶也就越近。

然而,部分行业专家表示,将更多数据输入模型并期望其越来越智能的粗暴方式,可能很快遭遇瓶颈。

普渡大学硅谷电气与计算机工程教授Anand Raghunathan在采访中表示,“首先是经济条件的限制,毕竟投入的预算不可能无限增长。还有人认为,用于训练模型的有价值数据终会被耗尽。届时更多数据将无法提供更多信息,那么数据能否进一步改善模型、训练过程能否优化性能将画上一个大大的问号。”

Raghunathan还提到,尽管存在诸多疑虑,但至少在短期内,数据增长的趋势将会持续下去。更多数据将对应更强大的算力和数据存储/处理容量,以确保特斯拉能够持续训练自己的AI模型。这就是超级计算机Dojo的意义所在。

超级计算机是什么?

作为特斯拉的超级计算机系统,Dojo相当于AI(特别是FSD)的训练场。Dojo这个单词本身,就是在致敬“武道场”的概念。

超级计算机由数千个小型计算机节点组成。每个节点都有自己的CPU和GPU,前者负责节点的全面管理,后者则负责执行复杂任务——例如将事务拆分成多个部分并同时处理。

GPU对于机器学习操作至关重要,例如支持FSD模拟训练。GPU还支撑起大语言模型,这就是生成式AI热潮能够将英伟达送上全球最有价值公司宝座的原因所在。

就连特斯拉也会采购英伟达GPU来训练自家AI。

特斯拉为什么需要自己的超级计算机?

特斯拉选择的纯视觉技术路线,决定其必须拥有超级计算机。FSD背后的神经网络经过大量驾驶数据训练,能够识别并分类车辆周遭的物体,而后据此做出驾驶决策。就是说当FSD启动时,神经网络必须以等同于人类驾驶员速度及识别能力的水平持续收集并处理视觉数据。

换句话说,特斯拉就是想为人类视觉皮层和大脑功能打造一套数字副本。

为了实现这个目标,特斯拉需要存储并处理从全球车辆上收集到的全部视频数据,并运行数百万次模拟来完成模型训练。

特斯拉的Dojo训练计算机主要采用英伟达GPU,并公司并不想把鸡蛋都放进同一个篮子——特别是考虑到英伟达家的GPU价格不菲。特斯拉希望开发出更好的产品,在增加带宽的同时降低延迟。因此,该公司AI部门决定发布自己的定制硬件项目,希望以更高效的方式训练AI模型。

该项目的核心就是D1芯片,特斯拉表示这些芯片专门针对AI工作负载进行了优化。

关于芯片的更多细节

前AUTOPILOT硬件高级总监GANESH VENKATARAMANAN在2021年特斯拉AI日活动上展示D1训练模块。

跟苹果一样,特斯拉也认为硬件和软件设计应当协同并进。为此,特斯拉才决定摆脱标准GPU硬件,通过自研芯片来驱动Dojo超算集群。

特斯拉在2021年的AI日活动上公布了D1芯片,其尺寸与手掌相当,并表示该芯片将于2023年7月左右投入生产。

这款7纳米芯片由台积电负责代工。据特斯拉介绍,D1拥有500亿个晶体管,芯片尺寸高达645平方毫米。由此看来,D1芯片将拥有极其强大的性能表现,能够快速处理复杂任务。

然而,D1芯片的性能却仍不及英伟达A100。

为了弥合差距,特斯拉一直在研发下一代D2芯片以解决信息流瓶颈问题。D2芯片不是简单将各芯片连接起来,而是把整块Dojo芯片集成到单一晶片之上。

特斯拉从未公布其订购或接收了多少块D1芯片,也没有公布Dojo超级计算机全面转向D1的具体时间表。

Dojo对特斯拉有何意义?

2024年7月7日,参观者在上海世界人工智能大会(WAIC)上见证了特斯拉人形机器人OPTIMUS II。

特斯拉希望自主掌控芯片生产,有朝一日以低成本快速为AI训练项目提供大量算力。

如此一来,特斯拉就能摆脱价格日益昂贵、且供应安全缺乏保障的英伟达芯片。如今,特斯拉正努力与英伟达、AMD和三星同时维持合作伙伴关系,其中三星将负责其下一代AI6芯片的制造。

在2024年第二季度财报电话会议上,马斯克表示市场对英伟达硬件的需求“如此之高,导致GPU获取难度同步提升。”他强调称“我们非常担心能否在必要时获得稳定的GPU供应,因此必须在Dojo上投入更多精力,确保我们掌握所需的训练能力。”

但Dojo本身是个风险巨大的赌注,马斯克也多次承认特斯拉未必能在项目上取得成功。

从长远来看,特斯拉也考虑过为AI部门建立新的商业模式,甚至在2024年第二季度财报电话会议上,马斯克提到“也许可以通过Dojo跟英伟达直接竞争”。虽然D1芯片更适合特斯拉提出的计算机视觉标记与训练用途(主要面向FSD和Optimus训练),但在其他方面则效果一般。马斯克称,未来的版本必须拥有更好的AI训练通用能力。

特斯拉还面临另外一个问题,就是几乎所有AI软件均针对GPU编写。使用Dojo芯片训练通用AI模型,则意味着软件需要经历重写。

就是说,特斯拉有可能出租其算力(类似于AWS和Azure出租云算力)。摩根士丹利在2023年9月发布的一份报告中预测,Dojo可以通过自动驾驶出租车和软件服务的形式创造新的收入来源,将特斯拉的市值额外拉升5000亿美元。

简而言之,Dojo芯片将成为这家汽车制造巨头的保险单,甚至可能已经带来了回报。

特斯拉Dojo还能走多远?

马斯克虽然经常公布进度报告,但他为Dojo设定的不少目标始终未能实现。

例如,马斯克曾在2023年6月表示,Dojo已经上线几个月并开始运行实用任务。大约在同一时间,特斯拉提到,预计Dojo将在2024年2月成为全球五大超级计算机之一,并计划在2024年10月将算力提升至百亿亿级别。这对应的是约27.6万台D1计算机,或者约32.05万块英伟达A100 GPU。

但特斯拉此后再未透露过任何更新消息,也未公布这些目标是否达成。

特斯拉和马斯克也曾为Dojo项目做出过诸多承诺,包括提供资金支持。例如,特斯拉曾在2024年1月承诺斥资5亿美元在纽约州布法罗超级工厂制造一台Dojo超级计算机。据2024年的报告,截至当时的投入已经达到3.14亿美元。

就在特斯拉2024年第二季度财报电话会议结束后,马斯克在X上发布了Dojo 1的照片,强调到年底其将拥有“相当于约8000张H100的在线训练容量。不算特别厉害,但也不差。”

尽管马斯克在X和财报电话会议上极尽努力,但关于Dojo的所有消息都在2024年8月彻底消失,话题开始转向Cortex。

在该公司2024年第四季度的财报电话会议上,特斯拉称已经完成了Cortex的部署,即“在得克萨斯州超级工厂部署了约5万张H100的训练集群”,且Cortex将协助支持监督式FSD的V13版本。

到2025年第二季度,特斯拉表示“在得克萨斯州超级工厂额外部署了1.6万张H200 GPU,旨在扩展AI训练算力,Cortex的总算力此时已等效于6.7万张H100。”在此次财报电话会议上,马斯克提到预计第二套Dojo集群将在2026年“大规模”运行,同时暗示公司可能对项目进行裁撤。

“考虑到Dojo 3和AI6推理芯片有着高度重合的定位,在直觉上二者应该可以合并起来。”

短短几周后,他宣布解散Dojo团队。

另据证实,2025年8月底特斯拉仍在继续布法罗耗资5亿美元的超级计算机建造计划,只是名头肯定不叫“Dojo”了。

参考链接:

https://techcrunch.com/2025/09/02/tesla-dojo-the-rise-and-fall-of-elon-musks-ai-supercomputer/