摘要
Cursor模型更新,最新版本已来到Composer 2.5。 稍微一翻Cursor公告,两件事挺有意思: 一是Cursor这回学老实了,新模型“套”了Kimi不再藏着掖着,连具体用了多少都标的清清楚楚。 (Cursor:Kimi打底,自家额外训练+RL占了85%的总算力) 二是马斯克原地上演变脸,之前Cursor陷入“套壳风波”时他在旁边煽风点火,现在却十分卖力地帮忙站台: 都给我去用Cursor新模型。 网友:老马你让我感到陌生(doge)。 别想多了,其实这是因为Cursor和马斯克达成了算力合作—— Composer 2.5部分训练是在Colossus 2上完成的,以及Cursor正在和SpaceXAI合作,从零开始训练一个规模明显更大的模型。 好好好,新模型刚来,下一代模型的“饼”又吃上了,看来Cursor真是铆足了劲想搞自研(具体原因下文详聊)。 不过远的咱是够不着了,先看眼前这个实在的——Composer 2.5本身亮点也很足。 1/10成本、Opus 4.7级表现,而且发布后首周还给你双倍用量。 好家伙,这几个词一甩出来,经常用模型的朋友谁不沸腾了。 但问题是,Cursor新模型真有这么顶吗?? 1/10成本、Opus 4.7级表现 顶不顶目前咱不好说,反正测评成绩挺亮眼。 据Cursor介绍,“它更擅长在长时间运行的任务中持续工作,更可靠地遵循复杂指令,协作体验也更加顺畅”。 这些表现反映到具体数字上就是,其性能水平整体接近Claude Opus 4.7。 Terminal-Bench 2.0 (终端/命令行任务) :69.3% VS 69.4%,几乎持平; SWE-Bench Multilingual (多语言工程问题) :79.8% VS 80.5%,差距微弱; CursorBench v3.1 (高难度编程任务) :63.2% VS 最高配64.8%,差距微弱。 能和Opus 4.7相提并论,常用模型的人都知道这里头的含金量了。 而且除了在更高难度的任务上训练之外,他们还改进了模型在沟通风格和投入级别校准(什么时候该出多大力)等行为层面的表现。 听起来有点抽象,但Cursor表示:
摘要可能不完整,可查看原文