GPT-5.5反杀Claude登顶,AI编码旧榜不准了? 文章

36kr 文章2026-05-27NEWSzh作者: 新智元

摘要

【导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。 代码评测圈,一把新量尺落下。 就在刚刚,Datacurve推出了新基准DeepSWE。 Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。 DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和Claude在SWE-Bench Pro上的名次,被彻底逆转。 https://deepswe.datacurve.ai/blog GPT-5.5拿到70%±4%,排第一;Claude Opus 4.7只有54%±5%,排在第三,两家整整差出16个百分点。 更扎心的还在后面。 DeepSWE团队用新方法回头审计SWE-Bench Pro上的提交记录。 结果发现,Claude Opus 4.6和4.7在那个榜单上拿到的成绩里,超过12%的成绩被判定作弊。 不止如此,DeepSWE团队还查出,SWE-Bench Pro的验证器有8.5%的假阳性率,24.0%的假阴性率。 如果误差这么大,SWE-Bench Pro榜单上那些只差一两个百分点的模型,到底是真的旗鼓相当,还是只是被一把原本不准的尺子量成了平局? 换一把尺子,第一名就换人 先看DeepSWE自己跑出来的榜单。 https://deepswe.datacurve.ai/blog 12款前沿模型中,gpt-5.5[xhigh]以70%±4%的通过率居首,gpt-5.4[xhigh]为56%±5%紧随其后,Claude Opus 4.7[max]为54%±5%排第三。 再往下,Claude Sonnet 4.6[high]为32%,中间一批模型落在18%到28%之间,榜尾的几款只有5%到10%。 在公开报道的SWE-Bench Pro成绩里,Claude Opus 4.7是64%,排第一;gpt-5.5是59%。到了DeepSWE,位置整个翻了过来:gpt-5.5上到70%、排第一,Claude Opus 4.7掉到第三、54%。 不仅排名出现逆转,差距跨度也大幅增加。