DeepSeek V3.1:混合推理架构的高性价比探索

Source: InfoQ - Architecture

DeepSeek"发布V3.1版本",引入了一种混合架构",在一个系统中提供了思考和非思考模式。思考模式,即DeepSeek-V3.1-Think",相较于之前的DeepSeek-R1-0528"模型,它在保持类似的响应质量的同时提供了更快的推理速度。此外,通过一系列精心设计的后训练优化调整,改进了工具使用和多步骤任务执行。

DeepSeek-V3.1"的开发以DeepSeek-V3-Base检查点为基础,采用了两阶段上下文扩展策略。第一阶段将上下文窗口扩展到32000个词元,使用了包含6300亿个词元的训练数据。第二阶段进一步将上下文扩展到128000个词元,增加了2090亿个训练词元。这种策略显著提升了模型处理长输入序列的能力,远超早期版本。

V3.1的训练还采用了FP8 UE8M0"精度,用于权重和激活。这种精度格式不仅提升了计算效率,还与微缩放技术完美兼容,从而使得大规模模型的部署变得更加高效。从规模来看,完整的DeepSeek-V3.1模型包含6710亿个总参数,每个词元大约可激活370亿个参数,同时支持扩展至128000个词元上下文长度。

在开源编码和推理基准测试"中,DeepSeek V3.1的排名接近榜首。在社区测试环节,它在Aider基准测试"中得分71.6%,超过了Claude 4",并与GPT-4"接近,而运行完整套件的计算成本约为1美元,相较于其他模型动辄数十美元,其性价比优势不言而喻。

Reddit和X上的讨论呈现出对DeepSeek V3.1的多样化评价。一些开发人员将其描述为GPT或Claude的高性价比替代品,指出其在编码和推理基准测试中以极低的成本取得了极佳的效果。用户badgerbadgerbadgerWI"评论道:

DeepSeek的成本和性能比令人难以置信。我们现在在本地部署运行它来进行代码审查工作。

AI工程师Prince Ramoliya"分享道:

混合推理真是太棒了。拥有一个可以在深度思考和快速响应之间切换的模型,这感觉像是实用AI的未来。

DeepSeek模型可通过多个平台获取,包括Hugging Face"、OpenRouter"和Replicate"。它还附带了官方的API文档"和更新说明",详细描述了技术细节和性能基准。开发人员可以尝试标准响应生成和推理增强输出,并根据任务需求选择合适的模式。

与DeepSeek-V3相比,新版本旨在平衡效率与推理能力。通过整合工具使用和结构化的后训练优化,DeepSeek-V3.1力图攻克多步骤推理任务所面临的难题,同时确保推理速度契合生产环境的实用需求。混合架构设计是融合显式推理之长与传统自回归生成高效吞吐量优势的匠心之举。

【声明:本文由InfoQ翻译,未经许可禁止转载。】

原文链接:

https://www.infoq.com/news/2025/09/deepseek-v31-hybrid/"