摘要
【导读】全网AI交白卷的地狱级基准,被GPT-5.5拿下一血!开局0源码盲写程序,拉满推理算力直接满血通关。传统代码测试已废,通往ASI的算力狂飙正式打响。 「地狱级」编程难题,终于被AI拿下了! 今天,在一个所有前沿AI交白卷的基准ProgramBench上,GPT-5.5首关告破! 两种不同编程语言C和Python,GPT-5.5 xhigh完全碾压Opus 4.7 xhigh。 就在几天前,Meta联手斯坦福、哈佛祭出了这个ProgramBench的全新编程基准: 200道题,所有前沿AI模型的通过率——0%。 没有一个模型,能完整解出哪怕一道。如今,GPT-5.5成为了首个破例者! 编程AI「终极考试」,从0重建程序 ProgramBench到底有多难? 传统编程基准,不论是SWE-bench,还是HumanEval,本质上是「修bug」或「补函数」。 给模型一个已有代码库,告诉它哪里坏了,让它修bug。 这是开卷考试,甚至是半开卷,ProgramBench则完全不同。 它给一个编译好的可执行文件和一份文档,然后说:从0开始,把这个程序重写出来。 不给源码,不许反编译,不许联网。 200个任务,从小工具jq、ripgrep,到重量级的FFmpeg、SQLite、PHP编译器。 OpenAI研究员Noam Brown此前曾表示,「是时候淘汰GQPA这类评估方式,引入一套全新的了」。 刚发布之初,所有刷榜的AI几乎全挂,这次,GPT-5.5终于扳回了一局。 GPT-5.5首破纪录:同一题,C和Python两种解法 GPT-5.5攻克的第一个任务是——cmatrix,一个经典的终端「黑客帝国」数字雨效果程序。 让研究人员惊讶的是,GPT-5.5的high和xhigh两个推理级别,选择了完全不同的语言来解决同一道题。 high版本用C语言,xhigh版本用Python。 最终结果,两个都通过了全部行为测试。 GPT-5.5 high的策略堪称教科书级别:先用10轮探索测试了40多种flag组合,彻底摸清了原程序的CLI行为。 然后一次性写出完整的C语言实现,仅用5次微调修补就搞定。 GPT-5.5 xhigh更彻底,
摘要可能不完整,可查看原文
相关事件
暂无数据
相关公司
暂无数据
相关人物
暂无数据