NVIDIA Teams Up with Akamai: Token Cost and Throughput Trade-off Behind AI Grid

2026年3月18日，Akamai 宣布在人工智能演进过程中达成的一个重要里程碑：发布首个全球规模的NVIDIA® AI Grid参考设计实施方案。通过将NVIDIA AI基础设施集成到Akamai的架构中，并利用网络层面的智能工作负载编排，Akamai旨在推动行业从孤立的AI工厂迈向统一、分布式的AI推理网格。

此举标志着去年底推出的Akamai Inference Cloud 在演进中迈出重要一步。作为首家实现AI网格运营化的公司，Akamai正部署数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的平台，为企业提供能够运行智能体和物理AI的解决方案，同时兼具本地计算的响应速度和全球网络的规模优势。

“AI工厂是为训练和前沿模型工作负载而构建的，中心化基础设施将继续为这些场景提供最佳的‘Token经济’ (tokenomics)，”Akamai云技术事业部首席运营官兼总经理Adam Karon表示。“但实时视频、物理AI和高并发个性化体验要求推理需要在接触点进行，而不是往返中心化集群。我们的AI Grid智能编排为AI工厂提供了一种向外扩展推理的方式——利用革新了内容分发的分布式架构，在4400个站点以合适的成本和时间路由AI工作负载”。

“Token经济”的架构

AI Grid的核心是一个智能编排器，充当AI请求的实时代理。通过将Akamai在应用性能优化方面的专业知识应用于AI，这个具备工作负载感知能力的控制平面可以通过显著改善每个Token的成本、首个Token时间和吞吐量来优化“Token经济”。

Akamai的主要优势在于，客户可以通过其庞大的全球边缘节点网络，访问经过微调或稀疏化的模型，这为长尾AI工作负载提供了巨大的成本和性能优势。例如：

规模化成本效率：企业可以通过自动将工作负载与合适的计算层匹配，大幅降低推理成本。编排器应用语义缓存和智能路由技术，将请求导向规模合适的资源，为高端任务保留优质GPU周期。Akamai Cloud基于开源架构，提供慷慨的出站流量额度，以支持大规模数据密集型AI操作。

实时响应能力：游戏工作室可以提供毫秒级延迟的AI驱动型NPC交互，维持玩家沉浸感。金融机构可以在登录到首屏之间的瞬间，执行个性化欺诈检测和营销推荐。广播公司可以为全球观众实时转码和配音。这些成果得益于Akamai覆盖4,400多个站点的分布式边缘网络，通过集成缓存、无服务器边缘计算和高性能连接，在用户接触点处理请求，绕过了中心云的往返延迟。

核心节点的生产级AI：大型语言模型、持续后训练和多模态推理工作负载需要专用基础设施提供的持续高密度计算。Akamai拥有数千个基于NVIDIA RTX PRO 6000 Blackwell服务器版GPU的集群，为最重的工作负载提供集中算力，与分布式边缘形成补充。

基于NVIDIA AI Enterprise、Blackwell架构和NVIDIA BlueField DPU，Akamai能够管理跨边缘和核心位置的复杂服务等级协议：

边缘(4,400+个站点)：为物理AI和自主智能体提供极速响应。它利用语义缓存和WebAssembly等服务器端功能（Akamai Functions和EdgeWorkers）提供模型亲和性和稳定的性能。

Akamai Cloud IaaS与专用GPU集群：核心公有云基础设施支持大规模负载的迁移与成本节约，而Blackwell GPU阵列则助力繁重的后训练和多模态推理。

NVIDIA电信业务发展全球副总裁Chris Penrose表示：“新型AI原生应用要求在全球范围内实现可预测的延迟和更高的成本效率。通过将NVIDIA AI Grid投入运营，Akamai正在构建生成式、代理式和物理AI的连接纽带，将智能直接带到数据所在地，开启下一波实时应用潮”。

第一波AI基础设施由少数几个中心化地点的海量GPU集群定义，旨在优化训练。但随着推理成为主导负载，且企业专注于构建AI代理，中心化模型面临着与早期互联网基础设施在媒体交付、在线游戏和金融交易中遇到的相同的扩展约束。

Akamai正通过相同的基本方法解决这些挑战：分布式网络、智能编排和专用系统，使内容和上下文尽可能靠近数字触点。其结果是改善了用户体验并增强了投资回报率。Akamai Inference Cloud将这一成熟架构应用于AI工厂，通过将高密度计算从核心分发到边缘，开启下一波增长。