新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本

IBM最近宣布了Granite 4.0系列小语言模型。与更大规模的模型相比，该模型系列旨在提供可接受准确性的同时，提供更快的速度和显著降低的运营成本。Granite 4.0采用了新的混合Mamba/transformer架构，大大减少了内存需求，使Granite能够在成本显著更低的GPU上运行。

IBM表示：

大型语言模型的GPU内存需求通常以加载模型权重所需的RAM量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理AI或RAG系统——需要长时间的上下文、同时批量推理多个并发模型实例，或两者兼有。

根据IBM的说法，Granite能够提供超过70%的RAM需求下降，以处理长输入和多个并发批次。即使上下文长度或批次大小增加，推理速度据说仍然很高。与更大的模型相比，它的准确性依旧保持竞争力，特别是在指令遵循和函数调用基准测试中。

IBM将这些改进的特性归功于其混合架构，该架构结合了少量的标准transformer风格的注意力层和大部分的Mamba层——更具体地说，是Mamba-2。每1个Transformer块有9个Mamba块，Granite在Mamba部分相对于上下文长度实现了线性扩展（与transformers中的二次扩展相比），以及来自transformer注意力的局部上下文依赖（对于上下文学习或少量提示很重要）。

此外，Granite作为一个专家混合系统，任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。

Granite采用混合架构提供了三种模型变体，方便地称为Micro、Tiny和Small，以满足不同的用例。在一端，Micro（3B参数）针对的是高容量、低复杂性任务，其中速度、成本和效率优先（例如，RAG、摘要、文本提取、文本分类）。在另一端，Graphite Small（总共32B参数，其中9B活跃）旨在用于需要更强性能的企业工作流，而无需前沿模型的高昂成本（例如，多工具代理和客户支持自动化）。另一个模型，Graphite Nano（0.3B和1M参数），针对的是连接和计算能力有限的边缘设备。

一项基于Mamba的语言模型的实证研究暗示了Mamba-2混合架构与Transformer和纯SSM模型在某些任务上的潜力：

我们的主要目标是在相同的超参数下，为训练了高达3.5T token的8B参数模型提供Mamba、Mamba-2、Mamba-2-Hybrid（包含Mamba-2、注意力和MLP层）和Transformer之间的严格正面对比。
\[...\] 我们的结果表明，虽然基于纯SSM的模型在许多任务上与Transformer模型相匹配或超过，但Mamba和Mamba-2模型在需要强大的复制或上下文学习能力的任务上落后于Transformer模型（例如，五次MMLU、电话簿查找或长上下文推理）。相比之下，我们发现8B参数的Mamba-2-Hybrid在所有12个标准任务上超过了8B参数的Transformer（平均+2.65分），预计在推理时生成token的速度高达8倍。

IBM在Apache 2.0许可下开源了Granite 4.0模型。这与Meta的LLaMa许可形成对比，后者的开源性质受到开源社区成员的质疑。至于Llama 4社区许可协议，它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。

Granite模型可在Hugging Face和watsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM提供了微调Granite的指南。此外还提供了一个Colab示例，将Granite应用于合同分析。

针对IBM Granite的人工智能管理系统（AIMS），IBM已获得ISO/IEC 42001:2023认证。ISO/IEC 42001标准旨在以结构化的方式解决AI带来的伦理、透明度和持续学习挑战，管理风险和机会。

原文链接：New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture