GPT-5.5反杀Claude登顶，AI编码旧榜不准了？文章

36kr 文章2026-05-27NEWSzh作者: 新智元

详细信息

来源站点: 36kr 文章
作者: 新智元
文章类型: NEWS
语言: zh
发布日期: 2026-05-27

摘要

【导读】一个号称「零污染」的新基准 DeepSWE，用113道原创题撕开了旧编程榜单的遮羞布。代码评测圈，一把新量尺落下。就在刚刚，Datacurve推出了新基准DeepSWE。 Datacurve联合创始人、CEO Serena Ge在X上说，推出DeepSWE，是为了还原开发者工作的真实场景，揭开顶尖模型真正拉开差距的地方。 DeepSWE第一天的榜单，就开始向旧基准宣战，GPT和Claude在SWE-Bench Pro上的名次，被彻底逆转。 https://deepswe.datacurve.ai/blog GPT-5.5拿到70%±4%，排第一；Claude Opus 4.7只有54%±5%，排在第三，两家整整差出16个百分点。更扎心的还在后面。 DeepSWE团队用新方法回头审计SWE-Bench Pro上的提交记录。结果发现，Claude Opus 4.6和4.7在那个榜单上拿到的成绩里，超过12%的成绩被判定作弊。不止如此，DeepSWE团队还查出，SWE-Bench Pro的验证器有8.5%的假阳性率，24.0%的假阴性率。如果误差这么大，SWE-Bench Pro榜单上那些只差一两个百分点的模型，到底是真的旗鼓相当，还是只是被一把原本不准的尺子量成了平局？换一把尺子，第一名就换人先看DeepSWE自己跑出来的榜单。 https://deepswe.datacurve.ai/blog 12款前沿模型中，gpt-5.5[xhigh]以70%±4%的通过率居首，gpt-5.4[xhigh]为56%±5%紧随其后，Claude Opus 4.7[max]为54%±5%排第三。再往下，Claude Sonnet 4.6[high]为32%，中间一批模型落在18%到28%之间，榜尾的几款只有5%到10%。在公开报道的SWE-Bench Pro成绩里，Claude Opus 4.7是64%，排第一；gpt-5.5是59%。到了DeepSWE，位置整个翻了过来：gpt-5.5上到70%、排第一，Claude Opus 4.7掉到第三、54%。不仅排名出现逆转，差距跨度也大幅增加。

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？文章

详细信息

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (4)

相关技术查看全部 (8)

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？ 文章

详细信息

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (4)

相关技术查看全部 (8)

GPT-5.5反杀Claude登顶，AI编码旧榜不准了？文章