Su Mama and Li Fei-Fei Blow CES! AMD's AI Full-Stack Ambitions Emerge: From Cloud to Personal PCs, AI Chip Performance to Surge 1000x in Four Years

今年的CES真可谓是八仙过海，黄仁勋、苏姿丰、陈力武等“经典面孔”齐亮相；不过台上谈的已不只限于显卡、算力和制程，还在于AI接下来要被带去哪里。

在AMD的专场演讲中，苏妈甩出一个大胆判断：

“未来五年内，将有50亿人每天使用 AI，超过世界人口的一半。”

——什么概念？就是这个增长速度将远超互联网早期阶段，自ChatGPT在2022年底发布以来，AI活跃用户已从100万暴涨至10亿+。

值得一提的是，这场演讲还请来了“AI教母”李飞飞。

李飞飞并不是来站台新品的，她和苏妈主要探讨空间智能和世界模型，这也是她已耕深20余年的领域。

此外，OpenAI总裁兼联合创始人Greg Brockman也登台助阵，指出行业痛点：“计算能力，仍然是AI走向通用智能的最大瓶颈。世界需要的GPU数量，远超我们现在拥有的规模。”

而这正是AMD接下来要解决的事情，他们希望能补齐AI普及所需的算力基础设施。在苏姿丰描述的未来世界里，AI将无处不在，算力将人人可及——她这次在CES上抛出的，不只是几块更强的GPU，而是一套完整的AI版图。

对于云端，基于下一代MI455 GPU的Helios 机架级平台成为全场焦点：单机架集成 72块 AI GPU，算力高达 2.9 ExaFLOPS，可通过成千上万个机架拼接成超大训练集群，直指千亿参数大模型的核心战场。

谈到云端算力的未来，苏姿丰毫不掩饰AMD的野心：

“全球人工智能运行在云端，而云端运行在AMD平台上。”

另外，她还指出，下一代Instinct数据中心AI加速器平台MI500系列，将在2027年推出并全面转向2nm工艺，并放出狠话：希望借此在四年内AI芯片性能提升1000倍（远超摩尔定律啊...）。

与此同时，AMD还在推动把AI从云端下放到本地，而他们的一个很核心的落点，是AIPC。

Ryzen AI通过内置NPU（神经网络处理单元，一种专门为 AI 推理设计的处理器）让AI本地运行、离线可用。

Helios 机架级平台和AIPC

在数据中心这一AI 算力的核心战场，AMD开始卖“一整个机架”的算力方案Helios，一个几乎重新定义“数据中心硬件形态”的存在。

Helios，是AMD面向YottaFLOPS级AI的下一代机架级平台，也是本场AMD发布会的“镇场之作”。

所谓YottaFLOPS级AI，就是算力达到10²⁴ 次浮点运算/秒 的人工智能系统。直观地说，它不只是“更快的AI”，而是能在极短时间内模拟、理解和优化极其复杂的世界系统，如全球气候、全人类基因等，能力规模远超今天任何单一AI模型。

Helios从一开始就按大模型需求设计，用开放的OCP机架标准做底座，并与Meta 合作开发，强调模块化、可扩展、能快速堆出大集群。

Helios的核心是一种全新的算力组织方式，能将72颗芯片协同工作。

其中的系统设计是通过高速互联和软件栈，把这些 GPU 组织成一个可以统一调度的算力池，让它们更像一个整体，而不是“72 个独立设备”。在 FP4 这种推理常用的低精度口径下，单台Helios机架式服务器可提供高达2.9 ExaFLOPS的算力，并搭载31TB容量的HBM4。

如果再把数千个 Helios 机架互联起来，就能搭建出面向万亿参数模型训练和推理的超大规模集群。

至于Helios的算力底座，是AMD最新一代Instinct MI455 GPU，也是AMD历史上跨代提升幅度最大的 Instinct GPU。

这颗芯片拥有超过3000亿个晶体管，相比MI300系列提升约 70%，推理与训练综合性能最高可达 10× 提升。

AMD对MI455 GPU的定位非常明确：它要解决大模型训练和推理里最棘手的瓶颈“内存墙”。大模型跑不动，很多时候不是算力不够，而是数据喂不进去、内存带宽跟不上。

这颗加速器芯片采用2nm与3nm混合工艺打造，再配上先进的3D小芯片封装技术，并搭载新一代 HBM4 高带宽内存。

更重要的是，MI455并不是孤立地“做一颗更强的GPU”，它在计算托盘层面就与 EPYC 服务器 CPU、Pensando 网络芯片深度集成，让 CPU、GPU、网络协同成为平台能力，而不再是分散组件的简单拼接。

苏姿丰打了个生动的比方：“Helios是个庞然大物般的货架，它不是普通的货架，而是双倍宽度的设计，重量接近7000磅。”她指出，这个机架的重量超过两辆小型轿车的总重量。

时至今日，AI的推理能力已被推到聚光灯下，其特点是调用频率高、负载长期持续，进一步带来更明显的算力缺口。

苏姿丰分享称，AMD下一代MI500系列正在开发中，计划全面转向2nm工艺，发布时间定在2027年。按照AMD给出的路线图，从 MI300 到 MI500 的四年周期内，其 AI 计算性能目标提升幅度达到 1000 倍。

她将这一跨代跃迁称为“公司历史上幅度最大的一次性能提升规划”，并将其视为支撑下一阶段超大模型训练和推理需求的关键基础。

在数据中心之外，AMD还把另一张牌打到终端侧：把原本只能在云端完成的 AI工作，搬到个人电脑上。

Ryzen AI Max 400系列（代号 Strix Halo）正是这一策略的核心载体。AMD 给它的定位并不含糊：面向 AI 开发者和高端创作者，做一颗“能真正干活”的本地 AI 芯片。

与Ryzen AI 300一样，Ryzen AI Max 400系列依然是Zen 5和RDNA 3.5，但支持更快内存速度。

简单来说，Ryzen AI 400 是一颗为 AI 笔记本打造的高性能处理器，最高配备 12 核 CPU，同时集成了更强的核显和最高 60 TOPS 的专用 AI 引擎。再加上对高速内存的支持，让它在多任务、创作以及本地 AI 应用中运行得更流畅。

但相比传统性能参数，更关键的是它的系统设计：芯片同时集成 XDNA 2 NPU，并采用统一内存架构，CPU 与 GPU 之间可共享最高 128GB 内存。

这也是能否跑大模型的前提条件。对本地 AI 来说，算力是否够强是一回事，模型能不能完整装进内存、数据能不能顺畅流动，往往才是决定成败的关键。

AMD用一场直观的演示给出了答案：一台搭载Ryzen AI的设备，在完全离线的情况下，流畅运行了一个 700 亿参数的医疗大模型。

这意味着，开发者可以直接在笔记本上调试生成式模型；医疗、金融等行业，也可以在不把数据上传云端的前提下，完成模型推理和分析。本地终端不再只是“调用云端 AI”，而是开始真正承载模型本身。

摆数据：在高端笔记本形态下，Ryzen AI Max在AI与内容创作类应用中的表现，快于最新一代 MacBook Pro；在小型工作站场景中，成本明显低于英伟达的DGX Spark，而且原生支持Windows + Linux。

AMD还贴心地发布了一个本地 AI 参考平台：Ryzen AI Halo 。

官方将其称为“世界上最小的 AI 开发系统”，可在完全离线的条件下运行多达 2000 亿参数模型，面向需要随时随地进行模型开发和部署的专业用户。

那些过去只能在数据中心机房里完成的工作，正在被压缩进一个可以随身携带的设备。

和李飞飞同台聊空间智能

前文提到“AI教母”李飞飞也亮相了；其实在这种聚焦硬件与平台发布的商业舞台上，李飞飞不常露面，她更常被视为学术界和公共讨论中的“定锚者”。

李飞飞此次在AMD的专场讲演登台，强调AI不仅要生成内容，更要理解并参与真实世界。

在这一点上，苏姿丰的判断高度一致，她表示，过去几年，大语言模型的出圈（LLM）推动了AI的爆发，但无论是人类还是机器，智能并不只来自“看和说”，真正连接“感知 → 推理 → 行动”的关键能力，是空间智能（Spatial Intelligence）。

过去这几年，GPU的快速发展已让画质起飞了，但3D和4D世界却还在慢慢搭，往往需要团队花费数月甚至数年完成；而现在AI正在改变这种节奏。

李飞飞表示，她认为AI正进入一个新阶段：从语言智能，迈向具备空间理解与行动能力的生成式AI：

“AI在过去几年取得了巨大突破，我在这个领域工作了二十多年，从未像现在这样，对未来的发展感到如此兴奋。”

她也介绍了自己创业公司World Labs的核心动向：

World Labs正在训练新一代世界模型（World Model）

目标不是还原二维像素，而是直接学习3D / 4D 结构；物体之间的空间关系；深度、尺度、物理一致性

已炼成的关键能力，包括仅凭几张照片，甚至单张图片，模型即可补全被遮挡区域、推断物体背后的结构，然后生成一致、持久、可导航的3D世界。

不是照片也不是视频，而是真正保持几何一致性的三维空间，具备“空间补全与想象”能力，而非拼贴。

李飞飞指出，过去需要数月才能完成的 3D 场景建模，现在可以在几分钟内完成。

她举例说明潜在影响：创作者：实时“在世界中创作”；机器人 / 自动驾驶：在物理一致的虚拟世界中训练，再进入现实；设计师 / 建筑师：直接“走进”设计，而不是看平面图。

她还特别强调了一个常被忽略的点：世界模型并不是“离线生成完就结束”，它需要实时响应、即时编辑，连续保持空间一致性。

这意味着：极高的内存需求，大规模并行计算，非常快的推理速度，否则世界就无法“活起来”。

谈及算力，李飞飞也透露称：World Labs的世界模型已运行在AMD的MI325X GPU 与 ROCm 软件栈之上，并在短短几周内实现了 超过 4 倍的推理性能提升。

她还提到，随着 MI450 等后续平台 推出，更大规模世界模型的训练与实时运行将成为可能。

其他亮眼新品

游戏和消费级显卡：

在消费级图形领域，AMD本次带来的主要新品是Radeon RX 9070 和 Radeon RX 9070 XT。

这两张显卡均搭载了AMD的全新RDNA 4架构，以及最新 AI 图像技术（包括 FSR 4），将游戏体验推向“AI 加速 + 实时渲染”双驱动的新时代。

其中 RX 9070 XT的64 个计算单元、较高频率设计，让其在多款 3A 游戏中表现强劲，在 4K 最高设置下帧率表现明显领先前代，在30多款游戏中平均比RX 7900 GRE 快 42%

而 RX 9070的规格稍低一些（但同样16 GB显存），其光追与AI能力也因较少计算单元略弱，不过仍能在高画质下保持流畅体验，在30多款游戏中平均比RX 7900GRE的帧率快21%。

综合来看，这两款显卡延续了 RDNA 4 在 高效能比、AI 支持（如 FSR 4）、光追性能提升 上的特性，适用于1440p 到 4K 游戏场景。

AI专用CPU：

EPYC Venice 是 AMD 为“AI 数据中心时代”打造的下一代服务器 CPU。

它采用2nm工艺，最多可集成 256 个Zen 6高性能核心，定位不只是“算得更快”，而是专门为 AI 集群服务。

相比上一代 EPYC，Venice 的内存带宽和 GPU 带宽都实现了翻倍，核心目标只有一个：在机架级规模下，持续、稳定地把数据“喂”给 MI455X 等 AI GPU。

换句话说，它不追求抢 GPU 的计算活，而是负责调度、通信和数据供给，避免 GPU 因“等数据”而空转。

为了支撑这种规模，EPYC Venice 还配套 800G 以太网，并结合 Pensando Volcano / Selena 网络芯片，面向万级机架规模的横向扩展。

在 AMD 的设计中，Venice不只是服务器 CPU，而是 AI 机架级系统里的“中枢处理器”，决定整个集群能否高效运转。

参考链接：

https://www.youtube.com/watch?v=UbfAhFxDomE&list=TLGGBbam0h3MCckwNjAxMjAyNg&t=3063s

https://www.techtimes.com/articles/313772/20260105/amd-ceo-lisa-su-declares-ai-everyone-ces-2026-guests-openai-luma-ai-liquid-ai-world-labs.htm

https://www.amd.com/content/dam/amd/en/documents/corporate/events/amd-ces-2026-distribution-deck.pdf