Cursor自研新模型反超Opus 4.6,价格还“打一折”!网友实测:只有它写完应用能一次跑通

来源: InfoQ - AI&大模型

原文

站在悬崖边的Cursor,刚刚发布了自家第二代编程大模型:Composer 2.0, 且已在IDE中上线。

在一项关键的编程基准测试(Terminal-Bench 2.0)上,Composer 2竟然反超了Claude的旗舰模型 Opus 4.6。

要知道,在Cursor拥有自家编程模型Composer之前,它长期“外挂”Claude和Codex,虽然因此吸了一大波粉但也饱受质疑有没有核心能力。

而这一次,不仅性能反超,而且价格还“打一折”

Cursor给出的定价是:Fast版本,每百万输入token输入1.5 美元,每百万输入token输出7.5 美元,比上一代便宜了57%左右。

而普通版的价格直接干到了输入0.5美元、输出2.5美元。相比之下,Claude Opus 4.6的定价是:输入5美元、输出25美元——刚好差了整整10倍!不过需要说明的是,Anthropic也指出,在使用缓存与批处理等优化机制时,原则上能把成本最多压到原来的十分之一。

当下AI竞争已经卷到了“谁能用更少的钱吐出更多token”这步,而Composer 2.0在速度和成本这两端,竟然同时碾压了Opus 4.6、GPT-5.4这两个老对手。Cursor也是毫不客气地放一张图,把三者的数据对比直接摆上台面。

##网友实测:只有Composer 2写完应用能一次跑通

Cursor宣称,Composer 2 在我们衡量的所有基准测试上都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0,在衡量模型 Debug 能力的 SWE-bench Multilingual(多语言版)上,Composer 2 也给出了一个很能打的成绩:73.7%,而Claude Opus 4.6的这项得分是77.83%(数据来自 Anthropic),可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足Cursor了,他们最近还自建了一套基准,专门评估agent在真实任务执行水平,名为Cursor Bench

值得一提的是,Cursor Bench还曾把在SWE-Bench上风光无限的Claude Sonnet 4.5直接打回原形:得分从77.2骤降到 37.9。至于Composer 2,大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来,在数据上的表现确实很亮眼了,那Composer 2的真实“业务水平”如何?

一位开发者网友对Composer 2、Opus 4.6 和 GPT-5.4在同一任务下做了波实测:

他用一套指定技术栈生成了一个X的克隆应用,并允许这三个模型调用浏览器自行测试。

结果显示,三者在规划阶段差别不大,都花了约 5 分钟;但到了真正执行时,差距开始拉开:Composer 2 生成的应用可以直接运行,而 Opus 和 GPT 虽然最终也能完成,但都卡在了 CORS 问题上,需要额外调试。

更有意思的是,三者生成的代码结构和质量其实非常接近,差距主要在于效率和成本:Composer 2 用时 5 分钟、花费 6.04 美元;而 Opus 和 GPT 分别耗时 19 分钟、22 分钟,成本也更高,达到 10.43 美元和 14.15 美元。

##为啥说Cursor正站在悬崖边?

这当然不是因为它赚不到钱。

恰恰相反,过去一年Cursor 的营收、估值、用户增长都很猛,企业客户也还在持续买单。

据彭博社3月初消息,Cursor在2025年销售额,从一年前的1.5亿美元飙升至20亿美元(约合人民币138亿元)。而且他们的员工数只有300多人。

另外,Cursor在去年11月完成了上一轮融资,金额为23亿美元,投后估值300亿美元左右(约合人民币2069亿元)。而且据彭博社3月11日消息,Cursor还在和投资者洽谈新一轮融资,投后估值或达500 亿美元(约合人民币3448亿元)。不过谈判还在进行中,最终不一定能达成融资协议。

也就是说,真正危险的,是Cursor赖以崛起的那套逻辑正在被掏空:

过去开发者需要IDE来和AI 一起写代码,而现在,越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体,让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”,代码编辑器不再是唯一入口,甚至开始显得多余

这对Cursor 来说是致命的。它原本最强的地方,是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里;但当模型厂商自己下场做产品,直接把入口拿走,Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是,它长期依赖外部模型,用户喜欢它,恰恰也是因为它接入了最强的大脑;可一旦这些大脑自己做 IDE、做 CLI、做 Agent,Cursor 的护城河就开始变浅——上游模型厂往下吃,下游开发者往外绕,它被夹在中间。

所以Cursor的自救方式也很明确:

第一,补上最致命的短板,做自己的模型。

第二,全面转向Agent,把IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作,让多个 Agent 并行干活,而不是只做一个代码补全工具。

第三,继续押企业市场,因为大公司迁移慢、合同长、合规重,不会今天用 Cursor 明天就全员切到 Claude Code。

另外,它还要降低对Anthropic和OpenAI的依赖。Cursor利用DeepSeek、Kimi、Qwen等开源模型做了二次训练,再通过自有数据和强化学习,把它们拧成更便宜、更快的专用编码模型——Cursor也是搭上中国开源模型的快车了。

说白了,Cursor现在不只是在做版本更新,而是在抢时间重写自己的存在理由:

在“编辑器可能失去中心地位”的时代,证明自己不只是一个好用的壳,而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接:

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853