Cursor自研新模型反超Opus 4.6，价格还“打一折”！网友实测：只有它写完应用能一次跑通

站在悬崖边的Cursor，刚刚发布了自家第二代编程大模型：Composer 2.0，且已在IDE中上线。

在一项关键的编程基准测试（Terminal-Bench 2.0）上，Composer 2竟然反超了Claude的旗舰模型 Opus 4.6。

要知道，在Cursor拥有自家编程模型Composer之前，它长期“外挂”Claude和Codex，虽然因此吸了一大波粉但也饱受质疑有没有核心能力。

而这一次，不仅性能反超，而且价格还“打一折”：

Cursor给出的定价是：Fast版本，每百万输入token输入1.5 美元，每百万输入token输出7.5 美元，比上一代便宜了57%左右。

而普通版的价格直接干到了输入0.5美元、输出2.5美元。相比之下，Claude Opus 4.6的定价是：输入5美元、输出25美元——刚好差了整整10倍！不过需要说明的是，Anthropic也指出，在使用缓存与批处理等优化机制时，原则上能把成本最多压到原来的十分之一。

当下AI竞争已经卷到了“谁能用更少的钱吐出更多token”这步，而Composer 2.0在速度和成本这两端，竟然同时碾压了Opus 4.6、GPT-5.4这两个老对手。Cursor也是毫不客气地放一张图，把三者的数据对比直接摆上台面。

##网友实测：只有Composer 2写完应用能一次跑通

Cursor宣称，Composer 2 在我们衡量的所有基准测试上都取得了大幅提升。

除了前文提到的 Terminal-Bench 2.0，在衡量模型 Debug 能力的 SWE-bench Multilingual（多语言版）上，Composer 2 也给出了一个很能打的成绩：73.7%，而Claude Opus 4.6的这项得分是77.83%（数据来自 Anthropic），可见两者已经拉得很近。

只在“通用榜单”里比高低可能已经不能满足Cursor了，他们最近还自建了一套基准，专门评估agent在真实任务执行水平，名为Cursor Bench。

值得一提的是，Cursor Bench还曾把在SWE-Bench上风光无限的Claude Sonnet 4.5直接打回原形：得分从77.2骤降到 37.9。至于Composer 2，大概率已经在这套自家的“魔鬼基准”下被反复检验过了。

话说回来，在数据上的表现确实很亮眼了，那Composer 2的真实“业务水平”如何？

一位开发者网友对Composer 2、Opus 4.6 和 GPT-5.4在同一任务下做了波实测：

他用一套指定技术栈生成了一个X的克隆应用，并允许这三个模型调用浏览器自行测试。

结果显示，三者在规划阶段差别不大，都花了约 5 分钟；但到了真正执行时，差距开始拉开：Composer 2 生成的应用可以直接运行，而 Opus 和 GPT 虽然最终也能完成，但都卡在了 CORS 问题上，需要额外调试。

更有意思的是，三者生成的代码结构和质量其实非常接近，差距主要在于效率和成本：Composer 2 用时 5 分钟、花费 6.04 美元；而 Opus 和 GPT 分别耗时 19 分钟、22 分钟，成本也更高，达到 10.43 美元和 14.15 美元。

##为啥说Cursor正站在悬崖边？

这当然不是因为它赚不到钱。

恰恰相反，过去一年Cursor 的营收、估值、用户增长都很猛，企业客户也还在持续买单。

据彭博社3月初消息，Cursor在2025年销售额，从一年前的1.5亿美元飙升至20亿美元（约合人民币138亿元）。而且他们的员工数只有300多人。

另外，Cursor在去年11月完成了上一轮融资，金额为23亿美元，投后估值300亿美元左右（约合人民币2069亿元）。而且据彭博社3月11日消息，Cursor还在和投资者洽谈新一轮融资，投后估值或达500 亿美元（约合人民币3448亿元）。不过谈判还在进行中，最终不一定能达成融资协议。

也就是说，真正危险的，是Cursor赖以崛起的那套逻辑正在被掏空：

过去开发者需要IDE来和AI 一起写代码，而现在，越来越多开发者开始直接把任务交给 Claude Code、Codex 这类 CLI 智能体，让它们自己写、自己跑、自己改。

软件开发正在从“辅助写代码”切换到“智能体完成任务”，代码编辑器不再是唯一入口，甚至开始显得多余。

这对Cursor 来说是致命的。它原本最强的地方，是把 Claude、Codex 这些顶级模型装进一个足够顺手的 IDE 里；但当模型厂商自己下场做产品，直接把入口拿走，Cursor 就很容易从“超级入口”滑落成“中间一层”。

更尴尬的是，它长期依赖外部模型，用户喜欢它，恰恰也是因为它接入了最强的大脑；可一旦这些大脑自己做 IDE、做 CLI、做 Agent，Cursor 的护城河就开始变浅——上游模型厂往下吃，下游开发者往外绕，它被夹在中间。

所以Cursor的自救方式也很明确：

第一，补上最致命的短板，做自己的模型。

第二，全面转向Agent，把IDE 从“文件中心”改成“任务中心”。上线云端多智能体协作，让多个 Agent 并行干活，而不是只做一个代码补全工具。

第三，继续押企业市场，因为大公司迁移慢、合同长、合规重，不会今天用 Cursor 明天就全员切到 Claude Code。

另外，它还要降低对Anthropic和OpenAI的依赖。Cursor利用DeepSeek、Kimi、Qwen等开源模型做了二次训练，再通过自有数据和强化学习，把它们拧成更便宜、更快的专用编码模型——Cursor也是搭上中国开源模型的快车了。

说白了，Cursor现在不只是在做版本更新，而是在抢时间重写自己的存在理由：

在“编辑器可能失去中心地位”的时代，证明自己不只是一个好用的壳，而是一个真正有模型、有系统、有新入口的 AI 编程平台。

参考链接：

https://cursor.com/cn/blog/composer-2

https://x.com/TukiFromKL/status/2034677859818610700

https://x.com/wesbos/status/2034705631773372853