Kimi的K2开源语言模型支持动态资源可用性和新的优化器

Kimi发布了K2，这是一个混合专家型大语言模型，拥有320亿个激活参数和1.04万亿个总参数，基于15.5万亿个token训练。这次发布引入了MuonClip，这是一种新的优化器，它在Muon优化器的基础上增加了QK-clip技术，旨在解决训练不稳定性问题，团队报告称在预训练期间实现了“零损失峰值”。该模型有两种变体：基础版本和K2 Thinking，后者在测试推理、编码和代理能力的基准测试中声称达到了最先进的结果，包括在Humanity's Last Exam（HLE）中使用工具时获得44.9%，在BrowseComp中的60.2%，以及在SWE-Bench Verified中的71.3%。这次发布意味着K2成为开源模型领域的有力竞争者，特别是在软件工程和代理任务中，其中模型展示了强大的泛化能力。

团队通过一系列扩展实验验证了MuonClip。他们首先使用标准Muon优化器训练了一个中等规模的模型，该模型拥有90亿个激活参数和530亿个总参数。然后研究人员测试了QK-Clip是否影响模型性能，发现MuonClip保持了Muon的优化特性，而没有对损失轨迹产生负面影响。对于全规模的Kimi K2模型，团队应用了τ值为100的MuonClip，并在训练过程中跟踪了最大注意力逻辑值。最大逻辑值在训练过程中逐渐降低到正常操作范围，无需手动调整，团队将此作为优化器稳定性改进的证据。

来源：Kimi K2基准测试结果

Kimi在NVIDIA H800 GPU集群上训练了K2，每个节点包含2TB的RAM和通过NVLink和NVSwitch连接的8个GPU。集群使用8×400 Gbps RoCE互连进行节点间通信。团队设计了一种灵活的并行策略，允许在任何32的倍数节点上进行训练，解决了他们在大型语言模型训练期间所描述的动态资源可用性问题。

为了管理内存使用，团队对特定操作应用了选择性重计算，包括LayerNorm、SwiGLU和多头潜在注意力（MLA）上投影，选择了他们认为是成本低廉但占用空间大的阶段。训练过程还重新计算了MoE下投影，以进一步减少激活内存需求。

该模型可以执行200到300个由长期规划和自适应推理驱动的顺序工具调用。K2 Thinking执行的周期遵循思考→搜索→浏览器使用→思考→编码的模式，生成和完善假设，同时验证证据和构建答案。这种方法允许模型将模糊、开放式问题分解为可操作的子任务。

对于部署，团队解决了思考模型特有的推理效率挑战。虽然低比特量化降低了推理延迟和GPU内存使用，但思考模型生成的长输出序列通常在量化时会导致性能下降。Kimi在后训练阶段应用了量化感知训练（QAT），在MoE组件上使用INT4仅权重量化。这种实现使K2 Thinking能够以大约2倍的生成速度提升运行原生INT4推理。

Kimi K2许可证包括了一个商业使用要求。使用模型或其衍生产品用于商业产品或服务的组织，如果超过1亿月活跃用户或每月收入超过2000万美元，必须在这些产品或服务的用户界面上显著标明“Kimi K2”。这种归属要求将K2的许可证与通常不强制要求高规模商业部署的用户明确标注的标准开源许可证区分开来。

Awni Hannun在Apple Silicon上测试了K2 Thinking，报告的性能结果展示了模型在数据中心基础设施之外的可访问性。Hannun表示：

新的1万亿参数Kimi K2 Thinking模型在2个M3 Ultra上以其原生格式运行良好 - 没有质量损失！该模型在int4上进行了量化感知训练（qat）。在这里，它使用mlx-lm中的流水线并行处理生成了大约3500个token，速度为每秒15个token。

提供AI模型独立分析的Artificial Analysis表示：

Kimi K2 Thinking是新的领先开放权重模型：它在Agent环境中表现出特别的强度，但非常啰嗦，生成的token数量是完成我们的智能指数评估的模型中最多的。

Hacker News上的一位评论者指出：

模型之间的终极竞争最终将成为能源竞争。中国的开源模型在能源消耗方面具有主要优势，中国本身在能源资源方面也具有巨大优势。它们可能不一定能超越美国，但它们可能也不会落后太多。

Kimi K2进入了一个竞争激烈的开源模型领域，其中包括DeepSeek-R1——它也专注于扩展推理，阿里巴巴的Qwen模型（包括用于推理任务的QwQ），Mistral的Mixtral MoE系列，以及Meta的Llama 3家族。

K2 Thinking变体可以在kimi.com上找到，并通过Moonshot API平台提供。团队已在Hugging Face上发布了模型权重，那里可以访问技术细节和实现指导。Moonshot平台上提供了完整的API文档，为希望将K2集成到他们应用中的开发人员提供了集成规范。

原文链接：Kimi's K2 Opensource Language Model Supports Dynamic Resource Availability and New Optimizer