GPT-5.5反杀Claude登顶,AI编码旧榜不准了? 事件

PERSONNEL2026-05-27影响: LOW

GPT-5.5反杀Claude登顶,AI编码旧榜不准了? 【导读】一个号称「零污染」的新基准 DeepSWE,用113道原创题撕开了旧编程榜单的遮羞布。 代码评测圈,一把新量尺落下。 就在刚刚,Datacurve推出了新基准DeepSWE。 Datacurve联合创始人、CEO Serena Ge在X上说,推出DeepSWE,是为了还原开发者工作的真实场景,揭开顶尖模型真正拉开差距的地方。 DeepSWE第一天的榜单,就开始向旧基准宣战,GPT和Claude在SWE-Bench Pro上的名次,被彻底逆转。 https://deepswe.datacurve.ai/blog GPT-5.5拿到70%±4%,排第一;Claude Opus 4.7只有54%±5%,排在第三,两家整整差出16个百分点。 更扎心的还在后面。 DeepSWE团队用新方法回头审计SWE-Bench Pro上的提交记录。 结果发现,Claude Opus 4.6和4.7在那个榜单上拿到的成绩里,超过12%的成绩被判定作弊。 不止如此,DeepSWE团队还查出,SW

GPT-5.5反杀Claude登顶,AI编码旧榜不准了? · 相关人物

暂无数据