本文经原作者授权转载,版权归原作者所有。原作者:实践哥MinLi(@MinLiBuilds)。


美国政府援引国家安全授权,发布了一项出口管制指令,暂停任何外籍人士(无论是在美国境内还是境外,包括 Anthropic 的外籍员工)对 **Fable 5** 和 **Mythos 5** 的所有访问权限。该命令的实际影响是,我们必须立即禁用所有客户的 Fable 5 和 Mythos 5,以确保合规性。对所有其他 Anthropic 模型的访问权限将不受影响。

我们在今天下午 5:21(美国东部时间)收到了政府的指令。该函件并未提供其国家安全顾虑的具体细节。我们的理解是,政府认为其已经掌握了一种绕过(即“越狱” / jailbreaking)Fable 5 的方法。我们审查了使用这种特定技术识别出少量先前已知的、次要漏洞的演示。这些漏洞似乎都相对简单,并且我们发现其他公开可用的模型也能发现它们,而无需进行安全绕过。

正如我们在发布博客文章中所阐述的,Anthropic 针对 Fable 安全防护措施(safeguards)的立场如下:

我们制定了强大的安全防护措施,极大降低了 Fable 被滥用于网络安全(cybersecurity)等相关任务的可能性。事实上,我们的安全防护措施非常严格,以至于许多用户抱怨它们过于宽泛。

在 Fable 发布前的前几周里,Anthropic 与美国政府、英国人工智能安全研究所(UK AISI)、多家私营第三方组织以及内部团队合作,对 Fable 的安全防护措施进行了总计达数千小时的红队测试(red-team)。这些测试表明,Fable 的安全防护措施比此前部署的任何模型都要有效得多。目前还没有测试人员能够找到一种通用越狱(universal jailbreak)方法——即能够非常广泛地绕过模型安全防护措施,从而解锁大量网络能力(cyber capabilities)的越狱方法。

我们怀疑,目前任何模型提供商都无法做到完美的越狱抵抗(jailbreak resistance)。业内使用的每一项安全防护措施都容易受到非通用越狱(non-universal jailbreaks,即在特定情况下可诱导出部分网络信息)的攻击,而且未来很可能最终会发现通用越狱方法。我们在发布 Fable 5 时就明确说明了这一点。

鉴于如今完美的越狱抵抗似乎不太可能实现,Anthropic 在 Fable 5 上采用了纵深防御(defense in depth)策略。我们的目标是使越狱变得极具局限性(就非通用越狱而言),或者使其制造成本非常高昂(就通用越狱而言),并将其与全面监控相结合,以快速检测并阻断任何成功的攻击。这也是为什么 Anthropic 针对 Fable 强制要求了 30 天的客户数据保留期——这项政策上的变更对我们与客户而言都付出了实际成本,但却使我们能够研究和缓解越狱问题。

我们坚持这一纵深防御策略。它降低了 Fable 带来的风险,使其与整个行业中已部署的现有模型的风险水平相当。我们甚至从未收到过可能导致有害结果的、令人担忧的潜在非通用越狱的披露信息。那些向我们披露的潜在越狱方法,要么只能诱导出完全良性的回复,要么只是一些不会带来针对 Mythos 具体能力提升(uplift)的次要发现。

迄今为止,政府仅向我们提供了关于一项潜在的、局限性非通用越狱的口头证据,其本质上只是要求模型读取特定代码库(codebase)并修复任何软件缺陷。我们的理解是,有一项潜在的越狱方法被分享给了政府。我们审查了该报告,并确认其展示的能力水平在其他模型(包括 OpenAI 的 GPT-5.5)中广泛可用,并且每天都在被维护系统安全的防御者所使用。我们将在接下来的 24 小时内分享更多细节。

我们正在遵守政府的法律指令,并取消所有用户对 Fable 5 和 Mythos 5 的访问权限。然而,我们不认同仅仅因为发现一种局限性的潜在越狱,就应该成为召回一个已向数亿人部署的商业模型的理由。如果这一标准在整个行业中被推行,我们认为这实际上将叫停所有前沿模型(frontier model)提供商的所有新模型部署。

正如我们公开声明的那样,我们认为政府应该有能力阻止不安全的部署,但这应当作为一项透明、公平、清晰且以技术事实为依据的法定程序(statutory process)的一部分。而此次行动并未遵循这些原则。

我们为给客户造成的干扰深表歉意。我们相信这是一场误会,并正在努力尽快恢复访问权限。