GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元文章

36kr 资讯2026-05-13NEWSzh作者: 新智元

摘要

【导读】全网AI交白卷的地狱级基准，被GPT-5.5拿下一血！开局0源码盲写程序，拉满推理算力直接满血通关。传统代码测试已废，通往ASI的算力狂飙正式打响。「地狱级」编程难题，终于被AI拿下了！今天，在一个所有前沿AI交白卷的基准ProgramBench上，GPT-5.5首关告破！两种不同编程语言C和Python，GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。就在几天前，Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准： 200道题，所有前沿AI模型的通过率——0%。没有一个模型，能完整解出哪怕一道。如今，GPT-5.5成为了首个破例者！编程AI「终极考试」，从0重建程序 ProgramBench到底有多难？传统编程基准，不论是SWE-bench，还是HumanEval，本质上是「修bug」或「补函数」。给模型一个已有代码库，告诉它哪里坏了，让它修bug。这是开卷考试，甚至是半开卷，ProgramBench则完全不同。它给一个编译好的可执行文件和一份文档，然后说：从0开始，把这个程序重写出来。不给源码，不许反编译，不许联网。 200个任务，从小工具jq、ripgrep，到重量级的FFmpeg、SQLite、PHP编译器。 OpenAI研究员Noam Brown此前曾表示，「是时候淘汰GQPA这类评估方式，引入一套全新的了」。刚发布之初，所有刷榜的AI几乎全挂，这次，GPT-5.5终于扳回了一局。 GPT-5.5首破纪录：同一题，C和Python两种解法 GPT-5.5攻克的第一个任务是——cmatrix，一个经典的终端「黑客帝国」数字雨效果程序。让研究人员惊讶的是，GPT-5.5的high和xhigh两个推理级别，选择了完全不同的语言来解决同一道题。 high版本用C语言，xhigh版本用Python。最终结果，两个都通过了全部行为测试。 GPT-5.5 high的策略堪称教科书级别：先用10轮探索测试了40多种flag组合，彻底摸清了原程序的CLI行为。然后一次性写出完整的C语言实现，仅用5次微调修补就搞定。 GPT-5.5 xhigh更彻底，

摘要可能不完整，可查看原文

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (2)

相关技术查看全部 (3)

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (2)

相关技术查看全部 (3)

GPT-5.5全球首破，0源码盲写程序，编程AI进入新纪元文章