英特尔DeepMath引入智能架构，助力大型语言模型提升数学计算能力

英特尔宣布了DeepMath，这是一个基于Qwen3-Thinking构建的轻量级代理，专门用于解决数学问题。为了解决大型语言模型（LLM）在数学推理方面的常见限制，DeepMath会生成小段的Python脚本，支持并增强其问题解决过程。

据英特尔称，对于大型语言模型来说，数学问题仍然是一项挑战，它们经常会产生冗长的解释和错误的运算。为了解决这一限制，英特尔研究人员尝试了一种新的代理架构，依赖于小型Python执行器作为LLM推理过程的中间步骤：

DeepMath基于Qwen3-4B Thinking构建，并使用GRPO（Group Relative Policy Optimization）进行了微调。该模型不会生成冗长的文本，而是输出小段的Python代码作为中间步骤，在一个安全的沙箱中运行它们，并将结果反馈回推理过程，减少错误和输出长度。

例如有这样一个问题：找出所有正整数对x和y，使得y*y*x / (x + y)是一个质数。该模型生成了这个Python执行器，并使用比较小的y值迭代运行这段代码，从而生成正确的输出：

from sympy import isprime
solutions = []
for y in range(1, 10):  # 尝试比较小的y值
    for d in range(1, y**2):  # d < y^2
        if y**3 % d == 0:
            p = y**2 - d
            if isprime(p):
                x = (y**3 // d) - y
                if x > 0:
                    solutions.append((x, y))
print(solutions)

基于在四个不同的数据集上的评估（MATH500、AIME、HMMT和HLE），英特尔声称，数学代理将输出长度减少了高达66%，而且经常能提高准确性，而使用GRPO还带来了进一步的性能提升。

GRPO训练机制引入了正确答案奖励与代码片段生成奖励，鼓励生成简短的答案，并在训练过程中动态调整温度参数，促进初始训练阶段的探索，并随着模型变得越来越成熟减少探索。该模型采用了OpenMathReasoning数据集中的Tool-Integrated Reasoning（TIR）子集，仅基于四个示例的答案，其中包括调用和执行器输出，目的是使模型能够进行上下文学习。

然而，英特尔指出，最大的收益来自于使用Python执行器卸载确定性计算，这是LLM不擅长的，这样既减少了运算和数值错误，又因代码简洁而缩短了路径长度。

用于运行执行器的Python环境是沙箱化的，只允许执行允许列表中的模块。每个代码片段都受执行超时限制，不允许访问文件或网络。但在生产环境部署中，必须严格管控攻击面、实施速率限制、通过容器或虚拟机保证隔离、监控资源使用情况，并在执行前验证生成的代码。

DeepMath可以从GitHub和Hugging Face上获得。

原文链接：

https://www.infoq.com/news/2026/01/intel-deepmath-llm-architecture/