2026 年 5 月 22 日,Anthropic 发布公告,披露其 Project Glasswing 项目上线一个月后的具体成果。该项目联合约 50 家合作伙伴,在关键软件中累计挖掘出超过 1 万个高危(High)和关键(Critical)级别漏洞。Anthropic 表示,参与项目的团队普遍反馈 Claude Mythos Preview 模型显著提升了漏洞发现能力,部分团队的找漏洞速度提升超过 10 倍,当前这一阶段的主要瓶颈已从“发现漏洞”转向“验证、披露与修补漏洞”。
合作伙伴与外部评测反馈
Cloudflare:关键路径系统现 2000 个漏洞
Cloudflare 在合作中披露,其关键路径系统中发现了 2000 个漏洞,其中 400 个属于高危或严重级别,且误报率优于人工测试。这一结果验证了 AI 在真实生产环境中的可用性。
Mozilla:单版本修复量提升 10 倍
Mozilla 在 Firefox 150 版本中利用 Mythos Preview 模型修复了 271 个漏洞,这一数量超过此前使用 Claude Opus 4.6 测试 Firefox 148 时修复量的 10 倍。AI 工具对浏览器这类复杂软件的安全测试效率提升显著。
外部安全机构评测
在外部评测中,Mythos Preview 同样表现突出。英国 AI Security Institute 称其为首个能够端到端攻破 2 个网络攻防靶场的 AI 模型。独立安全平台 XBOW 认为,该模型在网页利用基准上的表现明显强于现有模型,并具备极高的检测精度。
开源软件漏洞扫描与复核数据
针对开源软件领域,Anthropic 在过去几个月中已扫描超过 1000 个开源项目,合计发现 23019 个漏洞(包括中危和低危级别)。其中,模型估计有 6202 个属于高危或严重级别。截至目前,已有 1752 个高危或严重漏洞完成人工复核,确认其中 1587 个为真实漏洞,真实率达 90.6%;在这 1587 个真实漏洞中,有 1094 个被确认仍属高危或严重级别,占比 62.4%。
按当前复核后的命中率估算,即便后续不再新增漏洞,最终也可能沉淀出近 3900 个开源高危或严重漏洞。这一数据反映出开源生态面临的安全压力正在急剧上升。
修补瓶颈:从发现到修复平均需两周
真正困难的环节出现在修补阶段。Anthropic 在公告中指出,高危或严重漏洞从发现到补丁落地,平均需要 2 周时间。部分开源项目的维护者甚至主动要求放慢漏洞披露的节奏,原因是其处理 AI 生成漏洞报告的能力已接近上限。这显示出,AI 在安全领域的应用已从单纯提升发现效率,转而给整个漏洞生命周期管理带来新的挑战。
综合以上信息,Project Glasswing 的首月成果表明,AI 在漏洞发现方面已具备实用价值,但行业需要同步提升修补和响应能力,才能充分发挥 AI 驱动的安全测试潜力。
本文参考来源:IT之家



