Token日生成数百万亿,传统负载均衡不够用了:F5 开始做Token级调度
来源: InfoQ - AI&大模型

过去谈到“应用”,更多指向一个APP、一个网站、一个业务系统,或一组运行在服务器上的软件服务。但在AI时代,应用已经不再是单一入口、单一后端、单一部署环境的组合,而是由大模型、智能体、API、数据、算力集群、云平台、边缘节点和安全策略共同构成的复杂系统。
这也意味着,企业面临的核心问题正在发生变化。过去企业更关心“如何部署应用”、“如何保障访问稳定”;而现在,企业真正需要解决的是:在混合多云、AI推理、智能体调用、异构算力和自动化攻击并存的环境下,如何对应用进行统一交付、持续安全和系统级治理。
作为应用交付领域的领导者,F5认为,AI时代企业竞争优势的关键,不再只取决于单一模型能力、某一个云平台,或者某一类安全产品,而在于企业能否在复杂、多云且高度动态的环境中,建立对应用、数据与流量的核心控制能力。
企业技术栈正变得越来越碎片化

F5亚太区首席技术官Mohan Veloo
F5亚太区首席技术官Mohan Veloo表示,当前企业IT环境正在被三股力量重塑:混合多云常态化、AI推理规模化,以及安全威胁智能化。
首先,混合多云已成为企业默认运行模式。根据F5 2025年《应用战略现状》报告研究数据显示,目前约94%的企业在混合多云环境中运行,平均分布于约19个不同位置。这意味着,企业应用天然处于多环境、多平台、多位置的复杂状态中。未来企业架构的关键,不再是应用运行在哪一个云上,而是能否在不同环境中获得一致的交付、安全与治理能力。
其次,AI正在从训练阶段加速进入推理阶段,并深度嵌入企业应用栈。F5指出,目前已有78%的企业具备自有推理能力,且平均同时使用约7种模型。AI不再只是外围工具,而是进入业务核心场景。随着智能体开始调用API、访问数据、执行任务,应用的“用户”也不再只包括人类,还可能是软件机器人、AI Agent,甚至是多个智能体协同组成的系统。这也对传统身份管理、访问控制和安全策略提出新挑战。
第三,安全威胁正在被AI重塑。F5指出,当前网络攻击数量增长77%,机器化活动增加150%,CVE漏洞持续攀升,大模型也在不断扩大新的攻击面。在AI加持下,攻击者能够更快生成攻击、更快变形载荷,并持续试探系统边界。F5认为,这带来了明显的速度错位:攻击者正在以“机器速度”行动,而许多企业仍以“人工速度”防御,传统防御节奏已难以匹配风险变化。
在三重变化叠加下,企业技术栈正变得更加碎片化。一方面,企业需要IAM、WAF、API安全、负载均衡、可观测性等传统能力;另一方面,AI应用又提出提示词安全、AI护栏、智能体权限管理、Token成本优化、多模型路由、异构算力调度、KV Cache感知和合规策略编排等新需求。
如果这些能力继续以单点产品方式叠加,企业将面临新的复杂性:工具越来越多,但控制越来越分散;平台越来越多,但策略越来越难统一;数据越来越多,但决策越来越割裂。为此,F5认为,AI时代企业需要的不是更多孤立工具,而是能够贯穿不同环境、应用和安全场景的统一控制能力。
AI应用的核心在于三个控制点
对于上述提到的问题,F5也探索出了自己的一套解法。
F5认为,企业AI应用的运行流程可以被概括为一条从提示词到Token的路径:用户或智能体首先输入提示词,请求经由统一入口进入系统;随后进入编排阶段,系统整合上下文,并按需调用内部API、数据、工具、智能体或子智能体;增强后的提示词再进入模型层推理,并在这一过程中转化为Token,最终形成输出结果。
基于这一流程,F5将企业AI交付划分为三个关键控制点:统一入口、编排与调度、模型推理。三者分别对应三个核心问题:谁可以进入系统、进入后可以调用哪些资源,以及推理过程如何在性能、成本和安全之间实现动态平衡。
首先是统一入口。F5认为,AI应用中的提示词并不会直接进入模型,而是先到达应用程序或API层。发起请求的主体也不再仅限于人类用户,还可能是智能体、机器人或代理程序。因此,所有请求在进入系统之前,都需要先被识别、判断和治理。
长期以来,企业在这一层主要依赖WAF,但传统WAF更多基于已知威胁和静态规则进行防护。面对实时生成、持续变化的攻击载荷,单纯依赖规则匹配已难以应对。为此,F5重构了WAF架构,在特征匹配、攻击指标和外部威胁情报等传统能力之上,引入神经网络模型,形成新的智能安全层。
据介绍,这一神经网络能力基于F5自有数据体系构建,可对行为进行实时监测,并在微秒级完成安全决策。同时,该能力运行于CPU之上,无需依赖GPU资源,可部署在边缘节点并嵌入实时流量路径,在不明显增加延迟的前提下完成防护。
F5给出的数据显示,在未进行特征匹配更新的情况下,相关WAF方案已成功捕获10类漏洞;引入新的特征机制后,误报率由28%下降至1%,检测准确率从64%提升至98%。这意味着,WAF正在从基于规则匹配的防火墙,转向具备行为理解和动态判断能力的智能防护体系。F5将其概括为“用AI对抗AI”。
第二个控制点是编排与调度。F5认为,AI应用真正复杂的部分往往不在模型本身,而在模型周围的调用链路。一个用户请求可能要经过提示词增强、上下文拼接、API调用、数据库检索、工具调用和智能体协作,最终才进入模型推理。因此,AI系统风险也不只存在于模型输出,还贯穿整个编排链路。
为强化这一环节的安全能力,F5收购了CalypsoAI,并构建覆盖“发现—防护”的闭环体系,包括AI红队和AI护栏两大模块。其中,AI红队负责主动发现和挖掘潜在风险,从攻击者视角测试模型、应用和调用链路中的漏洞;AI护栏则负责将这些风险转化为实际防护策略,防止数据泄露、越权调用、违规输出或不安全行为发生。
F5表示,基于现有能力,其每月可生成约1万个新的AI特征码,并构建了全球规模领先的AI攻击数据集之一,能够对开源和闭源模型行为进行检测与分析。F5希望进一步把AI安全从“发现问题”推进到“自动修复”:AI红队发现的风险可直接转化为AI护栏策略,并自动生成对应防护机制,使安全策略能够随攻击变化动态更新,减少对人工配置和人工响应的依赖。
第三个控制点是模型推理。F5认为,推理是AI从概念走向业务落地的关键环节。相比“算力是否足够”,企业更需要关注如何以更低成本、更低延迟和更高效率完成模型调用。
Mohan表示,AI工厂可以被理解为一种能量转化系统:以电力为输入,以算力为输出,把物理资源转化为数字能力。而算力的产出,可以用Token来衡量。随着企业AI应用规模扩大,Token正在成为衡量AI成本与价值的重要经济单位。
Mohan指出,当前全球每天生成的Token规模已达数百万亿量级。他举例称,一句“Why Does F5 Have The Best Application Delivery And Security Platform?”在处理过程中可拆分为约13个输入Token,并生成约27个输出Token,总计约40个Token。这意味着,AI系统中的每一次交互都可以被量化为Token消耗。
围绕Token优化,F5提出五个关键指标:Token吞吐量、首Token响应时间、单Token成本、端到端延迟和每瓦Token产出数。其中,Token吞吐量衡量系统处理能力,首Token响应时间直接影响用户体验,单Token成本决定AI应用能否规模化,端到端延迟反映整体应用响应效率,每瓦Token产出数则体现能源利用效率。这五项指标将共同构成AI推理优化的核心评价体系。
把交付、安全和Token调度整合起来
实践中,F5围绕AI时代的应用交付与安全,形成了三条主要路径:以ADSP整合碎片化能力,以基于Token的负载均衡解决方案(TBLB)优化AI推理调度,并通过DPU将应用交付与安全能力前移至GPU之前。

其中,ADSP是F5面向AI时代构建的统一应用交付与安全平台。该平台上层覆盖客户、员工、机器人、API和AI智能体等多类访问主体;中间层提供WAF、API安全、机器人防护、DDoS防护、AI护栏等能力;底层则支持硬件、软件、SaaS、边缘、DPU和容器等多种部署形态。
在AI推理调度层面,F5提出TBLB,即基于Token的负载均衡。传统负载均衡通常关注请求数量、连接数、服务器负载和响应时间,但AI推理请求之间差异极大。一个简单查询和一个复杂代码生成任务,在Token消耗、模型调用、计算成本和响应时间上可能完全不同。
因此,F5认为,AI时代的调度不能只看请求数量,而要综合考虑Token成本、任务复杂度、模型能力、算力状态、缓存命中、延迟要求和用户体验。
在实际部署过程中,企业通常同时运营多个算力集群,既包括基于NVIDIA GPU构建的通用算力平台,也包括基于国产芯片架构的异构算力资源;既承载轻量化模型,也运行高性能、大参数模型。如何将这些异构资源整合为统一、高效的推理服务体系,正成为AI基础设施建设的核心挑战之一。
在这一体系中,F5位于推理服务入口层,能够在请求进入模型之前完成智能化决策,实时感知不同算力集群的负载状态、时延表现、资源利用率及潜在压力,并结合任务类型、Token消耗成本等因素,将请求动态调度至最适配的算力资源,从而在性能、成本与稳定性之间实现更优平衡。
F5中国区产品及解决方案总经理陈亮表示,TBLB的能力并不局限于判断“哪块算力处于空闲状态”,还会考虑KV Cache等因素。当缓存得以有效复用时,可显著减少重复计算,从而提升推理效率并降低整体算力消耗。因此,TBLB本质上是一个多因素感知、实时决策的智能调度系统。
在底层基础设施方面,F5重点关注DPU。按照AI工厂的架构分工,CPU负责通用计算,GPU负责训练和推理等高强度计算负载,DPU则更适合承担网络、安全、负载均衡和数据处理任务。
F5认为,AI推理的成本和性能优化不能只依赖GPU本身。大量应用交付、安全检测、流量调度和可观测性工作,如果全部由CPU或GPU承担,会影响整体效率。更优路径是在流量进入GPU之前,就完成部分交付与安全处理。
基于这一思路,F5发布了运行于NVIDIA BlueField DPU上的BIG-IP解决方案。该方案可在DPU层同时实现安全防护、负载均衡、大模型路由和可观测性等能力,将原本位于更高软件层级的处理能力前移到硬件层执行。F5数据显示,将BIG-IP迁移至DPU后,Token整体吞吐量提升约40%,首Token响应延迟下降约60%,端到端推理响应时间优化约30%。
未来,F5还计划将iRules能力引入AI工厂体系,进一步扩展Token维度的调度与治理能力,并推动将AI护栏能力下沉至DPU层,使安全防护能够在更底层、更前置的位置完成。不过,在中国市场,DPU目前仍处于导入阶段。陈亮表示,当前DPU的应用主要集中于互联网企业等对高性能网络与算力调度需求较高的场景,对于更广泛的企业客户而言,其商业价值与落地模式仍处于持续验证过程中。
Mohan提到,NVIDIA在硬件能力、生态成熟度和标准制定方面具有领先优势,这是F5选择其作为重要合作伙伴的主要原因。在推理链路中,双方协同主要体现在两个层面:一是在入口层,NVIDIA推理服务软件体系默认采用F5 NGINX作为前端接入组件,F5由此参与推理请求的入口管理和流量调度;二是在推理决策层,NVIDIA提供轻量级模型分类器,用于对请求复杂度进行预判,简单任务可路由至低成本轻量模型,复杂任务则调度至高性能模型,从而在用户体验与推理成本之间取得平衡。
不过,Mohan强调,其并不采取单一生态绑定策略。随着多元算力生态发展,F5也在与更多GPU和算力厂商合作,并逐步获得相关认证。
本地化重点:国产算力适配
在中国市场,F5的本地化重点正在从产品适配延伸到服务体系建设。
随着企业AI基础设施部署加速,客户在选择基础设施和安全厂商时,不仅关注产品能力,也更加重视国产算力适配、本地化部署、合规支持和服务响应速度。陈亮表示,国内算力生态发展迅速,F5已支持包括阿里平头哥、华为、NVIDIA、沐曦、寒武纪等在内的多类算力平台。目前,F5对主流算力平台的适配工作已基本完成。
不过,陈亮也指出,国产算力适配仍需要一定工程工作。模型层需要调用,推理引擎层也需要对底层算力资源进行调度。部分芯片还需要适配对应的模型语言和规范。如果适配和“翻译”工作完成得好,整体接入会更加顺畅,适配成本也更低;如果适配不足,则需要通过额外转换来匹配底层能力。
从行业趋势看,AI生态正在向统一规范演进。芯片、模型、接口和推理框架都在努力降低互操作成本。例如,越来越多模型侧接口开始兼容OpenAI调用方式,算力和模型也在向通用规范靠拢。这意味着,只要应用层采用统一接口,企业就可以在不同模型和算力环境之间实现更快适配。F5在其中扮演的角色,是提供入口层和调度层的统一控制能力。
在AI安全部署方面,陈亮表示,F5当前主要采用SaaS形态,同时也支持客户按需进行本地化部署,部署位置可以在边缘侧,也可以在数据中心。但从安全效果来看,最佳位置是尽可能接近模型侧。因为越靠近模型,能够观测和控制的流量信息越完整;如果部署过远,部分请求可能绕过安全控制。理想状态下,应将F5部署在模型前端,确保所有请求都经过统一安全管控。
针对性能与安全之间的平衡,陈亮表示,AI安全并不是“越重越好”。越复杂的检测通常意味着越高的性能开销,企业真正需要的是根据业务场景、安全等级和成本要求进行灵活配置。

他介绍,F5的AI防护能力可以分为三层:第一层基于静态规则,性能开销最低,仅需CPU即可运行,但防护能力相对有限;第二层引入机器学习,对请求进行评分和判断,安全性有所提升,但会带来一定算力消耗;第三层是基于模型驱动的智能防护,需要更高算力支持,但能够实现更高准确度和更强防护能力。客户可以根据自身场景选择不同策略。
Mohan补充称,F5平台支持通过编程方式进行策略管理,企业可以将合规要求直接写入规则体系。例如,在某些金融监管场景中,如果规定不能对不同银行产品进行横向比较,平台就可以在请求阶段识别并拦截相关问题,或按照客户设定方式处理。
服务能力也是F5中国本地化的重要投入方向。陈亮表示,目前F5在国内至少有3名成员属于AI应用工程部,同时正在扩充Support Center规模,并计划在上海和北京分别扩充Support Center架构,以更好服务中国客户。
此外,F5新成立的AI应用工程部当前重点是先完善内部能力体系,例如利用AI模型主动检测自身产品代码中的潜在CVE漏洞,实现更早发现和更快修复。通过产品适配、本地部署、合规策略和服务体系建设,F5希望进一步提升其在中国AI基础设施与安全市场中的本地化支撑能力。