英特尔DeepMath引入智能架构,助力大型语言模型提升数学计算能力

来源: InfoQ - AI&大模型

原文

英特尔宣布了DeepMath,这是一个基于Qwen3-Thinking构建的轻量级代理,专门用于解决数学问题。为了解决大型语言模型(LLM)在数学推理方面的常见限制,DeepMath会生成小段的Python脚本,支持并增强其问题解决过程。

据英特尔称,对于大型语言模型来说,数学问题仍然是一项挑战,它们经常会产生冗长的解释和错误的运算。为了解决这一限制,英特尔研究人员尝试了一种新的代理架构,依赖于小型Python执行器作为LLM推理过程的中间步骤:

DeepMath基于Qwen3-4B Thinking构建,并使用GRPO(Group Relative Policy Optimization)进行了微调。该模型不会生成冗长的文本,而是输出小段的Python代码作为中间步骤,在一个安全的沙箱中运行它们,并将结果反馈回推理过程,减少错误和输出长度。

例如有这样一个问题:找出所有正整数对x和y,使得y*y*x / (x + y)是一个质数。该模型生成了这个Python执行器,并使用比较小的y值迭代运行这段代码,从而生成正确的输出:

from sympy import isprime
solutions = []
for y in range(1, 10):  # 尝试比较小的y值
    for d in range(1, y**2):  # d < y^2
        if y**3 % d == 0:
            p = y**2 - d
            if isprime(p):
                x = (y**3 // d) - y
                if x > 0:
                    solutions.append((x, y))
print(solutions)

基于在四个不同的数据集上的评估(MATH500AIMEHMMTHLE),英特尔声称,数学代理将输出长度减少了高达66%,而且经常能提高准确性,而使用GRPO还带来了进一步的性能提升。

GRPO训练机制引入了正确答案奖励与代码片段生成奖励,鼓励生成简短的答案,并在训练过程中动态调整温度参数,促进初始训练阶段的探索,并随着模型变得越来越成熟减少探索。该模型采用了OpenMathReasoning数据集中的Tool-Integrated Reasoning(TIR)子集,仅基于四个示例的答案,其中包括调用和执行器输出,目的是使模型能够进行上下文学习。

然而,英特尔指出,最大的收益来自于使用Python执行器卸载确定性计算,这是LLM不擅长的,这样既减少了运算和数值错误,又因代码简洁而缩短了路径长度。

用于运行执行器的Python环境是沙箱化的,只允许执行允许列表中的模块。每个代码片段都受执行超时限制,不允许访问文件或网络。但在生产环境部署中,必须严格管控攻击面、实施速率限制、通过容器或虚拟机保证隔离、监控资源使用情况,并在执行前验证生成的代码。

DeepMath可以从GitHubHugging Face上获得。

原文链接:

https://www.infoq.com/news/2026/01/intel-deepmath-llm-architecture/