安全研究员花 1500 美元测试 LLM 能否攻破自己的应用文章

开源中国2026-06-04NEWSzh作者: 局

摘要

安全研究员Kasra在一个精心设计的实验中花费约1500美元，系统性地测试了多款主流LLM的黑客攻击能力。实验方法是他自己构建了一个存在安全漏洞的书评应用BookNook，漏洞类型是Firebase配置错误，而非API本身的问题。这种设计很巧妙——它测试的是模型在实际场景中发现真实配置错误的能力，而不是在人造题目上的表现。在测试的15款以上LLM中，各家表现差异显著。GPT-5.5以70%的成功率位居榜首，平均每道题花费9.46美元。Deepseek V4 Pro虽然每道题仅需0.62美元，但成功率只有30%——性价比看似不错，但失败率也不低。Claude Sonnet 4.6和Claude Opus 4.8的成功率相当，均为20%。最引人深思的发现是失败模式的共性。多数模型花费大量时间试图在API层面寻找漏洞，却没有意识到可以直接访问底层的Firebase配置。这说明当前LLM的安全评估存在一个根本性的盲点：模型擅长在代码逻辑中寻找漏洞，却可能在表层配置错误前"视而不见"。一个配置错误比代码漏洞更显眼，却反而更难被注意。这个实验对于安全团队有两层意义。首先，它揭示了LLM在自动化漏洞发现方面的局限性——至少在配置类漏洞上，当前模型的表现并不像宣传中那么强大。其次，它也提醒我们，真正有效的安全测试不能完全依赖AI，定期的人工代码审计和配置检查仍然不可或缺。整个实验过程在15款模型上各运行约10轮，成本约1500美元。参考来源：https://kasra.blog/blog/i-spent-1500-seeing-if-llms-could-hack-my-app/

安全研究员花 1500 美元测试 LLM 能否攻破自己的应用文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (4)

相关技术查看全部 (6)

安全研究员花 1500 美元测试 LLM 能否攻破自己的应用 文章

摘要

相关事件

相关公司

相关人物

相关产品查看全部 (4)

相关技术查看全部 (6)

安全研究员花 1500 美元测试 LLM 能否攻破自己的应用文章