DeepSeek-V3.2在推理任务中的表现优于GPT-5
来源: InfoQ - AI&大模型
DeepSeek发布DeepSeek-V3.2,这是一个开源的推理和代理AI模型家族。在多项推理基准测试中,其高性能计算版本DeepSeek-V3.2-Speciale表现优于GPT-5,与Gemini-3.0-Pro相当。
DeepSeek在开发DeepSeek-V3.2时应用了三项新技术。首先,他们使用了一种更高效的注意力机制,称为DeepSeek稀疏注意力(DSA),这降低了模型的计算复杂性。他们还扩展了强化学习阶段,使其消耗的计算资源超过了预训练。最后,为了改进模型使用工具的能力,他们开发了一个代理任务合成管道。最终,该模型在一系列编码、推理和代理基准测试中的表现超过了其他大多数开源模型,并且与GPT-5和Gemini-3.0-Pro等前沿闭源模型持平或更好。不过,DeepSeek团队指出:
尽管取得了这些成果,我们承认,DeepSeek与前沿封闭源模型相比还存在某些局限性……首先,由于训练过程的FLOP总数较少,DeepSeek-V3.2在世界知识的广度方面仍然落后于领先的专有模型。在未来的迭代中,我们计划通过扩大预训练的计算量来解决这一知识差距问题。其次,令牌效率仍然是一个挑战……未来的工作将专注于优化模型推理链的智能密度以提高效率。第三,解决复杂任务的能力仍然不如前沿模型,这激励我们进一步完善我们的基础模型和后训练方法。
InfoQ报道过DeepSeek之前的几个版本,包括最初的DeepSeek-V3以及他们的第一个推理模型DeepSeek-R1。这两个版本都是在2025年初发布的。2025年晚些时候,InfoQ报道了DeepSeek-V3.1,这是一个混合推理模型,在单一系统中融合了思考模式与非思考模式。

DeepSeek-V3.2基准测试性能(图片来源:DeepSeek技术报告)
DeepSeek-V3.2使用的架构与DeepSeek-V3.1相同,只是使用了新的DSA注意力机制。团队从DeepSeek-V3.1的一个检查点入手,在继续预训练并生成DeepSeek-V3.2之前,将上下文长度扩展到了128K。新的注意力机制将计算复杂性从O(L^2)降低到了O(Lk),其中L是上下文长度,k<
对于后训练,团队使用了专家蒸馏(specialist distillation)技术。他们训练了一组专门针对特定领域的专家模型:编码、数学运算和几个代理任务。然后,这些专家模型生成合成训练数据,用于微调主模型。
在Hacker News上关于DeepSeek-V3.2的讨论中,部分用户指出了高性能开源模型的优势。一位用户写道:
如果你试图构建基于AI的应用程序,你应该比较基于供应商的解决方案和使用自己的硬件托管开源模型之间的成本……然后将其与GPT-5的成本进行比较,这比较简单,因为每(百万)令牌的成本可以从网站上获取。运行DeepSeek(或更成熟的Qwen3)这类系统能为你节省的云服务开支,绝对超乎想象……DeepSeek和Qwen能在廉价GPU上流畅运行,而其他模型会直接卡死。
DeepSeek-V3.2模型文件可以从Huggingface上下载,但高计算资源版本DeepSeek-V3.2-Speciale目前仅通过DeepSeek的API提供。
原文链接: