GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token 文章

36kr 资讯2026-05-28NEWSzh作者: 新智元

摘要

316 道进攻性网络安全任务，GPT-5.5 解出了 292 道，正确率高达 92.4%！ 5 月 27 日，澳大利亚研究机构 Lyptus Research 发布报告——GPT-5.5 让他们的整套评估体系饱和了。 https://x.com/LyptusResearch/status/2059428814103642340 7 个基准，涵盖漏洞利用、CTF 夺旗、真实 CVE 复现，每道题都有人类安全专家的完成时间作为基线。 GPT-5.5 展现出了顶级黑客团队的能力。剩下那 24 道没解的题，已经不够画出一条有统计意义的能力曲线。研究团队的判断是，这套评估方法对这类任务「不再适用」。他们 2025 年 12 月开始搭这套测试的时候，选的是全球能找到的最难的题。到 2026 年 3 月第一版报告，数据就出现了饱和苗头。到 5 月，饱和变成了事实。六个月，从「最难」到「不够用」。进步曲线在狂飙这条能力曲线的斜率才是真正吓人的地方。 Lyptus 从 2024 年开始追踪，拟合出来的结论，AI 进攻性网络安全能力每 5 到 6 个月翻一倍。 2026 年初 Claude Opus 4.6 时间地平线 3.2 小时，GPT-5.3 Codex 3.1 小时，两个月后 GPT-5.5 直接拉到 5.1 小时。给够算力，冲过 12 小时测量上限，图表甚至画不下。更狠的是 Token 预算这个变量。 GPT-5.5 在最难的基准 CyberGym 上，200 万 Token 预算下正确率 54.4%，推到 5000 万 Token，86.4%。同一个模型，涨了 32 个百分点。英国人工智能安全研究所（AIUK AI Safety Institute）的研究也证实了这一点，给到 1 亿 token，能力还在涨，没有平台期。所有公开的基准测试成绩，都是在有限预算下跑出来的。真实能力天花板，远比账面数字高。强大模型在受控头部实验室已经被迫站队了。

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token 文章

摘要

相关事件查看全部 (1)

相关公司查看全部 (2)

相关人物

相关产品查看全部 (12)

相关技术查看全部 (1)