摘要
316 道进攻性网络安全任务,GPT-5.5 解出了 292 道,正确率高达 92.4%! 5 月 27 日,澳大利亚研究机构 Lyptus Research 发布报告——GPT-5.5 让他们的整套评估体系饱和了。 https://x.com/LyptusResearch/status/2059428814103642340 7 个基准,涵盖漏洞利用、CTF 夺旗、真实 CVE 复现,每道题都有人类安全专家的完成时间作为基线。 GPT-5.5 展现出了顶级黑客团队的能力。 剩下那 24 道没解的题,已经不够画出一条有统计意义的能力曲线。 研究团队的判断是,这套评估方法对这类任务「不再适用」。 他们 2025 年 12 月开始搭这套测试的时候,选的是全球能找到的最难的题。 到 2026 年 3 月第一版报告,数据就出现了饱和苗头。 到 5 月,饱和变成了事实。 六个月,从「最难」到「不够用」。 进步曲线在狂飙 这条能力曲线的斜率才是真正吓人的地方。 Lyptus 从 2024 年开始追踪,拟合出来的结论,AI 进攻性网络安全能力每 5 到 6 个月翻一倍。 2026 年初 Claude Opus 4.6 时间地平线 3.2 小时,GPT-5.3 Codex 3.1 小时,两个月后 GPT-5.5 直接拉到 5.1 小时。 给够算力,冲过 12 小时测量上限,图表甚至画不下。 更狠的是 Token 预算这个变量。 GPT-5.5 在最难的基准 CyberGym 上,200 万 Token 预算下正确率 54.4%,推到 5000 万 Token,86.4%。 同一个模型,涨了 32 个百分点。 英国人工智能安全研究所(AIUK AI Safety Institute)的研究也证实了这一点,给到 1 亿 token,能力还在涨,没有平台期。 所有公开的基准测试成绩,都是在有限预算下跑出来的。真实能力天花板,远比账面数字高。 强大模型在受控 头部实验室已经被迫站队了。
相关事件查看全部 (1)
相关公司查看全部 (2)
相关人物
暂无数据