新的IBM Granite 4模型通过可高效推理的混合Mamba-2架构降低人工智能成本
来源: InfoQ - AI&大模型
IBM最近宣布了Granite 4.0系列小语言模型。与更大规模的模型相比,该模型系列旨在提供可接受准确性的同时,提供更快的速度和显著降低的运营成本。Granite 4.0采用了新的混合Mamba/transformer架构,大大减少了内存需求,使Granite能够在成本显著更低的GPU上运行。
IBM表示:
大型语言模型的GPU内存需求通常以加载模型权重所需的RAM量来报告。但许多企业用例——特别是那些涉及大规模部署、复杂环境中的代理AI或RAG系统——需要长时间的上下文、同时批量推理多个并发模型实例,或两者兼有。
根据IBM的说法,Granite能够提供超过70%的RAM需求下降,以处理长输入和多个并发批次。即使上下文长度或批次大小增加,推理速度据说仍然很高。与更大的模型相比,它的准确性依旧保持竞争力,特别是在指令遵循和函数调用基准测试中。
IBM将这些改进的特性归功于其混合架构,该架构结合了少量的标准transformer风格的注意力层和大部分的Mamba层——更具体地说,是Mamba-2。每1个Transformer块有9个Mamba块,Granite在Mamba部分相对于上下文长度实现了线性扩展(与transformers中的二次扩展相比),以及来自transformer注意力的局部上下文依赖(对于上下文学习或少量提示很重要)。
此外,Granite作为一个专家混合系统,任何前向传递中只使用权重的一个子集。这也有助于保持较低的推理成本。
Granite采用混合架构提供了三种模型变体,方便地称为Micro、Tiny和Small,以满足不同的用例。在一端,Micro(3B参数)针对的是高容量、低复杂性任务,其中速度、成本和效率优先(例如,RAG、摘要、文本提取、文本分类)。在另一端,Graphite Small(总共32B参数,其中9B活跃)旨在用于需要更强性能的企业工作流,而无需前沿模型的高昂成本(例如,多工具代理和客户支持自动化)。另一个模型,Graphite Nano(0.3B和1M参数),针对的是连接和计算能力有限的边缘设备。
一项基于Mamba的语言模型的实证研究暗示了Mamba-2混合架构与Transformer和纯SSM模型在某些任务上的潜力:
我们的主要目标是在相同的超参数下,为训练了高达3.5T token的8B参数模型提供Mamba、Mamba-2、Mamba-2-Hybrid(包含Mamba-2、注意力和MLP层)和Transformer之间的严格正面对比。
\[...\] 我们的结果表明,虽然基于纯SSM的模型在许多任务上与Transformer模型相匹配或超过,但Mamba和Mamba-2模型在需要强大的复制或上下文学习能力的任务上落后于Transformer模型(例如,五次MMLU、电话簿查找或长上下文推理)。相比之下,我们发现8B参数的Mamba-2-Hybrid在所有12个标准任务上超过了8B参数的Transformer(平均+2.65分),预计在推理时生成token的速度高达8倍。
IBM在Apache 2.0许可下开源了Granite 4.0模型。这与Meta的LLaMa许可形成对比,后者的开源性质受到开源社区成员的质疑。至于Llama 4社区许可协议,它规定其许可权利不适用于居住在欧盟的人或总部设在欧盟的公司。
Granite模型可在Hugging Face和watsonx.ai上获取。感兴趣的读者可以在专门的在线游乐场中尝试该模型。IBM提供了微调Granite的指南。此外还提供了一个Colab示例,将Granite应用于合同分析。
针对IBM Granite的人工智能管理系统(AIMS),IBM已获得ISO/IEC 42001:2023认证。ISO/IEC 42001标准旨在以结构化的方式解决AI带来的伦理、透明度和持续学习挑战,管理风险和机会。
原文链接:New IBM Granite 4 Models to Reduce AI Costs with Inference-Efficient Hybrid Mamba-2 Architecture