关于美国政府暂停 Fable 5 和 Mythos 5 访问权限指令的声明

本文经原作者授权转载，版权归原作者所有。原作者：实践哥MinLi（@MinLiBuilds）。

美国政府援引国家安全授权，发布了一项出口管制指令，暂停任何外籍人士（无论是在美国境内还是境外，包括 Anthropic 的外籍员工）对 **Fable 5** 和 **Mythos 5** 的所有访问权限。该命令的实际影响是，我们必须立即禁用所有客户的 Fable 5 和 Mythos 5，以确保合规性。对所有其他 Anthropic 模型的访问权限将不受影响。

我们在今天下午 5:21（美国东部时间）收到了政府的指令。该函件并未提供其国家安全顾虑的具体细节。我们的理解是，政府认为其已经掌握了一种绕过（即“越狱” / jailbreaking）Fable 5 的方法。我们审查了使用这种特定技术识别出少量先前已知的、次要漏洞的演示。这些漏洞似乎都相对简单，并且我们发现其他公开可用的模型也能发现它们，而无需进行安全绕过。

正如我们在发布博客文章中所阐述的，Anthropic 针对 Fable 安全防护措施（safeguards）的立场如下：

我们制定了强大的安全防护措施，极大降低了 Fable 被滥用于网络安全（cybersecurity）等相关任务的可能性。事实上，我们的安全防护措施非常严格，以至于许多用户抱怨它们过于宽泛。

在 Fable 发布前的前几周里，Anthropic 与美国政府、英国人工智能安全研究所（UK AISI）、多家私营第三方组织以及内部团队合作，对 Fable 的安全防护措施进行了总计达数千小时的红队测试（red-team）。这些测试表明，Fable 的安全防护措施比此前部署的任何模型都要有效得多。目前还没有测试人员能够找到一种通用越狱（universal jailbreak）方法——即能够非常广泛地绕过模型安全防护措施，从而解锁大量网络能力（cyber capabilities）的越狱方法。

我们怀疑，目前任何模型提供商都无法做到完美的越狱抵抗（jailbreak resistance）。业内使用的每一项安全防护措施都容易受到非通用越狱（non-universal jailbreaks，即在特定情况下可诱导出部分网络信息）的攻击，而且未来很可能最终会发现通用越狱方法。我们在发布 Fable 5 时就明确说明了这一点。

鉴于如今完美的越狱抵抗似乎不太可能实现，Anthropic 在 Fable 5 上采用了纵深防御（defense in depth）策略。我们的目标是使越狱变得极具局限性（就非通用越狱而言），或者使其制造成本非常高昂（就通用越狱而言），并将其与全面监控相结合，以快速检测并阻断任何成功的攻击。这也是为什么 Anthropic 针对 Fable 强制要求了 30 天的客户数据保留期——这项政策上的变更对我们与客户而言都付出了实际成本，但却使我们能够研究和缓解越狱问题。

我们坚持这一纵深防御策略。它降低了 Fable 带来的风险，使其与整个行业中已部署的现有模型的风险水平相当。我们甚至从未收到过可能导致有害结果的、令人担忧的潜在非通用越狱的披露信息。那些向我们披露的潜在越狱方法，要么只能诱导出完全良性的回复，要么只是一些不会带来针对 Mythos 具体能力提升（uplift）的次要发现。

迄今为止，政府仅向我们提供了关于一项潜在的、局限性非通用越狱的口头证据，其本质上只是要求模型读取特定代码库（codebase）并修复任何软件缺陷。我们的理解是，有一项潜在的越狱方法被分享给了政府。我们审查了该报告，并确认其展示的能力水平在其他模型（包括 OpenAI 的 GPT-5.5）中广泛可用，并且每天都在被维护系统安全的防御者所使用。我们将在接下来的 24 小时内分享更多细节。

我们正在遵守政府的法律指令，并取消所有用户对 Fable 5 和 Mythos 5 的访问权限。然而，我们不认同仅仅因为发现一种局限性的潜在越狱，就应该成为召回一个已向数亿人部署的商业模型的理由。如果这一标准在整个行业中被推行，我们认为这实际上将叫停所有前沿模型（frontier model）提供商的所有新模型部署。

正如我们公开声明的那样，我们认为政府应该有能力阻止不安全的部署，但这应当作为一项透明、公平、清晰且以技术事实为依据的法定程序（statutory process）的一部分。而此次行动并未遵循这些原则。

我们为给客户造成的干扰深表歉意。我们相信这是一场误会，并正在努力尽快恢复访问权限。

关于美国政府暂停 Fable 5 和 Mythos 5 访问权限指令的声明 - 译

Written by:

Lnotice