KubeCon NA 2025: Exploring Tools in the Age of Generative AI

生成式人工智能技术需要支持新的工作负载、流量模式和基础设施需求，并需要一套新的工具来应对GenAI时代。来自Tetrate的Erica Hughberg和来自彭博社的Alexa Griffith在2025年北美KubeCon + CloudNativeCon会议上讨论了构建大规模提供模型推理服务的GenAI平台所需的条件。

基于Gen AI的应用程序的新需求包括动态的、基于模型的路由、token级别的速率限制、安全且集中的凭证管理，以及针对AI的可观测性、弹性和故障转移措施。现有的工具由于缺乏AI原生逻辑、只有简单的速率限制和基于请求的路由，所以不足以支持这些用例。Kubernetes平台和像KServe、vLLM、Envoy和llm-d这样的工具可以用来实现这些新需求。而对于AI应用程序的监控和可观测性，我们可以利用像OpenTelemetry、Prometheus和Grafana这样的框架。

两位演讲者讨论了他们使用开源项目开发的AI应用程序架构，如Envoy AI Gateway和KServe。Envoy AI Gateway帮助管理边缘处的流量，并为应用程序客户端提供统一的对GenAI服务，如推理服务或模型上下文协议（MCP）服务器的访问。它的设计基于双层网关模式，第一层网关称为AI网关，作为集中的入口点，负责认证、顶级路由、统一的LLM API和基于token的速率限制。它还可以作为MCP代理。

第二层网关称为参考网关，管理进入Kubernetes集群上托管的AI模型的流量，也负责对模型的细粒度访问控制。Envoy AI Gateway支持不同的AI提供商，如OpenAI、Azure OpenAI、Google Gemini、Vertex AI、AWS Bedrock和Anthropic。

KServe是自托管模型的开源标准，为Kubernetes平台上的生成式和预测性AI推理提供统一平台。作为一个单一的、声明式的模型API，它可以为每个模型提供一个稳定的内部端点，Envoy AI Gateway可以将流量路由到这些端点。它最近被重新设计以支持一系列生成式AI能力，如LLM多框架支持、OpenAI兼容API、LLM模型缓存、KV缓存卸载、多节点推理、基于指标的自动扩展和对Hugging Face模型的原生支持，以及简化的部署工作流。

KServe提供了一个基于llm-d的Kubernetes自定义资源定义（CRD），llm-d是一个Kubernetes原生的LLM推理框架，用于在不同框架上服务模型，如PyTorch、TensorFlow、ONNX或HuggingFace。CRD的K8s配置YAML脚本包括InferenceService类型，我们可以在其中指定模型元数据和用于外部访问的网关API。

Hughberg和Griffith在演讲结束时重申，GenAI带来了有状态的、资源密集型的和基于token的工作负载。你需要动态的、基于模型的路由和基于token的速率限制及成本控制这样的AI原生能力。像Kubernetes、Envoy AI Gateway和KServe这样的CNCF工具可以帮助开发基于Gen AI的应用程序。

原文链接：KubeCon NA 2025 - Erica Hughberg and Alexa Griffith on Tools for the Age of GenAI