千问3.5开源四连发,马斯克点赞:智能密度令人印象深刻

来源: InfoQ - AI&大模型

原文

3月2日,阿里巴巴将大模型B端品牌和C端应用品牌统一为千问。千问大模型(Qwen)涵盖基础大模型和专业领域模型,千问APP是阿里巴巴在C端的旗舰AI应用。为了避免之前千问、通义千问、Qwen 等多个名称导致的混淆问题,统一名称之后,阿里巴巴大模型品牌中文为“千问大模型”,英文为“Qwen”。“通义千问”的名称将不再使用。“通义实验室”为阿里巴巴集团旗下AI机构的组织名称。

3月3日消息,阿里巴巴昨晚再度开源千问3.5系列模型,这次是4款小尺寸模型。其中最小的0.8B 和2B两款,体积极小、推理速度快,适合移动设备、IoT 边缘设备部署,以及低延时的实时交互场景。4B模型则适合作为轻量级Agent的核心大脑,平衡了性能与资源消耗。9B模型性能媲美GPT-OSS-120B,适合需要较高智力水平但受限显存资源的服务器端部署,是性价比极高的通用模型选择。

官方表示,四款Qwen3.5新模型虽是小尺寸,但均拥有原生多模态能力,以极小的参数量实现了极大的性能提升。模型发布后,迅速引爆AI社区,马斯克也火速在社交媒体上点赞评论,称阿里千问模型“智能密度令人印象深刻”。

截至目前,千问3.5家族已开源8款模型,均以更少参数实现“跨级”性能超越,小尺寸性能媲美中型模型,而中型尺寸拥有顶级模型的智能水平。这正是马斯克说的智能密度。

刚刚过去的除夕,千问开源3.5系列的第一款模型Qwen3.5-397-A17B,参数不到4000亿,性能即超过万亿参数的Qwen3-Max模型且部署成本大幅下降。2月25日,阿里继续开源千问3.5系列模型。这次开源三款中等规模的新模型,包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。千问3.5新模型甚至可直接部署于消费级显卡,对开发者极为友好。基于Qwen3.5-35B-A3B的托管模型Qwen3.5-Flash已上线阿里云百炼,每百万Token输入低至0.2元。

千问3.5模型采用混合注意力机制,结合高稀疏的MoE架构创新,并基于更大规模的文本和视觉混合Token上训练,新模型以更小的总参数和激活参数量,实现了更大的性能提升。

整体看,千问家族迄今已经开源400多款大模型。每个系列不仅包括不同尺寸的语言模型,也包括编程、数学、语音、视觉理解、图像生成等类型模型。这种“全尺寸”“全模态”的开源,受到开发者追捧。不同开发者和企业都能根据自己的需求、场景找到一款适配的千问大模型。