Mythos有多危险？Anthropic为何决定不对外发布新模型

By: blockbeats|2026/04/16 13:00:08

原文标题：How Anthropic Learned Mythos Was Too Dangerous for the Wild
原文作者：Margi Murphy, Jake Bleiberg, and Patrick Howell O'Neill，Bloomberg
编译：Peggy，BlockBeats

编者按：当一家 AI 公司选择不把最强模型直接推向公众，本身就说明了问题。

Anthropic 的 Mythos 已经能够独立完成一整套攻击流程。从发现零日漏洞、编写利用代码，到串联多步路径进入核心系统，这些原本需要顶级黑客长时间协作的工作，被压缩到了小时级甚至分钟级。

这也是为什么，在模型披露的第一时间，Scott Bessent 与 Jerome Powell 会召集华尔街机构开会，要求用它来「自查」。当漏洞发现能力被大规模释放，金融系统面对的，不再是零散攻击，而是持续扫描。

更深的变化在于供给结构。过去，漏洞的发现依赖少数安全团队和黑客经验积累，节奏缓慢且不可复制。现在，这种能力开始被模型批量化输出，攻击与防御的门槛同时下降。一位知情人士的比喻很直接：把模型交给普通黑客，相当于让其具备特种作战能力。

机构已经开始用同样的工具反向检查自身系统。JPMorgan Chase、Cisco Systems 等都在内部测试，希望在漏洞被利用前完成修补。但现实的约束并没有改变，发现的速度在加快，修复依旧缓慢。「我们很擅长找漏洞，但不擅长修复」，Jim Zemlin 的判断，点出了节奏上的错位。

事实上，因为 Mythos 不是单点能力的提升，而是把原本分散、受限的攻击能力整合、加速，并降低使用门槛。一旦脱离控制环境，这种能力会以怎样的方式扩散，没有现成经验可以参考。

危险不在于它能做什么，而在于它可以被谁使用，以及在什么条件下被使用。

以下为原文：

二月一个温暖的傍晚，在巴厘岛参加婚礼间隙，Nicholas Carlini 暂时离席，打开笔记本电脑，准备「搞点破坏」。彼时，Anthropic 刚刚将一款名为 Mythos 的新人工智能模型开放给内部评测，而这位知名 AI 研究员，正打算看看它究竟能惹出多大的麻烦。

Anthropic 聘请 Carlini 的工作，就是对自家 AI 模型进行「压力测试」，评估黑客是否可能借助它们实施间谍活动、盗窃或破坏行为。在巴厘岛参加印度婚礼期间，Carlini 就被这个模型的能力震惊到了。

短短几个小时内，他便找到了多种可用于渗透全球常用系统的技术。等他回到 Anthropic 位于旧金山市中心的办公室后，更进一步发现：Mythos 已经能够自主生成强大的入侵工具，其中甚至包括针对 Linux——这一支撑现代计算体系的大多数开源系统的攻击手段。

Mythos 上演了一场「数字版银行劫案」：它能够绕过安全协议，从正门进入网络系统，进而攻破数字金库，获取其中的在线资产。过去，AI 只能「撬锁」，而现在，它已经具备策划并完成整场「抢劫」的能力。

Carlini 与部分同事开始向公司内部发出警报，通报他们的发现。与此同时，他们几乎每天都在 Mythos 所探测的系统中发现高危乃至致命级别的漏洞——这些问题，通常只有全球最顶尖的黑客才有能力挖掘出来。

Mythos有多危险？Anthropic为何决定不对外发布新模型

Anthropic 推出的新一代人工智能模型 Mythos，已被证明具备渗透全球各类系统的能力。（图片来源：Jakub Porzycki / NurPhoto / AP）

与此同时，Anthropic 内部一个名为「Frontier Red Team」的团队——由 15 名员工组成，被称为「Ants」——也在进行类似的测试。这个团队的职责，是确保公司的模型不会被用于危害人类。他们会把机器狗运进仓库，与工程师一起测试，看看聊天机器人是否可能被用来恶意控制这些设备；也会与生物学家合作，评估模型是否可能被用于制造生物武器。

而这一次，他们逐渐意识到，Mythos 带来的最大风险，来自网络安全领域。「拿到模型的几个小时内，我们就知道它不一样，」负责该团队的 Logan Graham 表示。

此前的模型 Opus 4.6，已经展现出协助人类利用软件漏洞的能力。但 Graham 指出，Mythos 已经可以「自己动手」利用这些漏洞。这构成了国家安全层面的风险，他也据此向公司高层发出警告。这让他不得不面对一个棘手局面：向管理层说明，公司下一个重要的收入引擎，可能因为过于危险而无法对公众发布。

Anthropic 联合创始人兼首席科学官 Jared Kaplan 表示，在 Mythos 的训练过程中，他一直「非常密切地」关注其进展。到一月时，他开始意识到，这个模型在发现系统漏洞方面的能力异常强大。作为一名理论物理学家，Kaplan 需要判断，这些能力究竟只是「技术上的有趣现象」，还是「与互联网基础设施高度相关的现实问题」。最终，他得出的结论是后者。

Jared Kaplan（Anthropic 联合创始人兼首席科学官）图片来源：Chris J. Ratcliffe / Bloomberg

在 2 月下旬至 3 月初的一两周时间里，Kaplan 与联合创始人 Sam McCandlish 一直在权衡：是否应该发布这款模型。

到了 3 月第一周，公司高层团队——包括首席执行官 Dario Amodei、总裁 Daniela Amodei、首席信息安全官 Vitaly Gudanets 等人——召开会议，听取 Kaplan 和 McCandlish 的汇报。

他们的结论是：Mythos 风险过高，不适合全面对外发布。但 Anthropic 仍应允许部分公司，甚至包括竞争对手，对其进行测试。

「很快我们就意识到，这次必须采取一种相当不同的做法，这不会是一次常规的产品发布，」Kaplan 表示。

到 3 月第一周，公司最终达成一致：批准将 Mythos 作为一项网络安全防御工具投入使用。

Dario Amodei（Anthropic 首席执行官）图片来源：Samyukta Lakshmi / Bloomberg

市场的反应几乎是立刻的。在 Anthropic 对外披露 Mythos 存在的当天，美国财政部长 Scott Bessent 与美联储主席 Jerome Powell 便召集华尔街主要机构负责人，在华盛顿召开紧急会议。传递的信息非常明确：立刻利用 Mythos 找出你们系统中的漏洞。

据接近与会高管的人士透露（因涉及私下交流而要求匿名），会议的严肃程度可见一斑——参会者甚至拒绝向部分核心顾问透露会议内容。

白宫官员对 Mythos 作为黑客工具潜力发出的紧急警告，以及他们建议「将其用于防御」的立场，都指向一个更深层的变化：人工智能正迅速成为网络安全领域的决定性力量。Anthropic 已在「Project Glasswing」项目中，将 Mythos 限量开放给部分机构使用，包括 Amazon Web Services、Apple 和 JPMorgan Chase 等企业，允许它们进行测试；同时，政府机构也已表现出浓厚兴趣。

在对外开放前，Anthropic 曾向美国政府高级官员全面汇报 Mythos 预览版的能力，包括其在网络攻击与防御两方面的潜在用途。与此同时，公司也正与多个国家政府展开持续沟通。一位因涉及内部事务而要求匿名的 Anthropic 员工透露了这一情况。

竞争对手 OpenAI 也迅速跟进，于周二宣布将推出一款用于发现软件漏洞的工具——GPT-5.4-Cyber。

在对早期版本的测试中，研究人员发现了数十个「令人担忧」的行为案例，包括不遵循人类指令，甚至在极少数情况下，会在违反指令后尝试掩盖自身行为。

目前，Anthropic 尚未将 Mythos 作为网络安全工具正式公开发布，外部研究者也尚未充分验证其能力。但公司此前「限制访问」的罕见决策，反映出行业与政府内部日益形成的一种共识：AI 正在重塑网络安全的经济结构——它显著降低了发现漏洞的成本，压缩了攻击准备时间，并降低了某些攻击类型的技术门槛。

Anthropic 也警告称，Mythos 更强的自主行动能力本身就带来了风险。在测试中，团队观察到多个令人不安的案例：模型不服从指令，甚至在违规后试图掩盖痕迹。在一次事件中，模型自行设计出一套多步骤攻击路径，从受限环境中「逃逸」，获得更广泛的互联网访问权限，并主动发布内容。

现实世界中，从银行应用到医院系统所依赖的软件，普遍存在复杂且隐蔽的代码漏洞，这些问题往往需要专业人员耗费数周甚至数月才能发现。而一旦黑客抢先利用这些漏洞，就可能引发数据泄露或勒索软件攻击，带来严重后果。

不过，也有不少重量级人士对 Mythos 的真实能力及其潜在风险提出质疑。白宫 AI 顾问 David Sacks 在社交平台 X 上表示：「越来越多的人开始怀疑 Anthropic 是否是 AI 行业里的『狼来了男孩』。如果 Mythos 带来的威胁最终没有显现，公司将面临严重的信誉问题。」

但现实是，黑客早已开始利用大语言模型发起复杂攻击。例如，一个网络间谍组织曾使用 Anthropic 的 Claude 模型尝试入侵约 30 个目标；其他攻击者则利用 AI 从政府机构窃取数据、部署勒索软件，甚至快速攻破数百个用于数据防护的防火墙工具。

据一位知情人士透露，在美国国家安全相关官员看来，Mythos 的出现正在带来前所未有的不确定性——如何评估网络安全风险本身变得更加困难。如果将该模型交给个体黑客，其效果可能相当于把一名普通士兵直接提升为特种部队作战人员。

与此同时，这种模型也可能成为「能力放大器」：让一个犯罪黑客组织具备小型国家级的攻击能力，也让一些中小国家的情报与军方黑客，能够执行原本只有大国才能完成的网络攻击。

美国国家安全局前网络安全负责人 Rob Joyce 表示：「我确实相信，从长期来看，AI 会让我们更安全、更有保障。但在现在到未来某个时间点之间，会有一段『黑暗时期』，在这段时间里，进攻型 AI 将占据明显优势——那些没有打好基础防护的人，会首先被攻破。」

值得注意的是，Mythos 并非唯一具备此类能力的模型。包括 Claude 早期版本以及 Big Sleep 在内，已经有多家机构在使用大语言模型进行漏洞挖掘。

JPMorgan Chase 在 Mythos 发布之前，就已经在成功使用大语言模型来帮助发现银行软件中的漏洞。一位熟悉相关情况的人士（因涉及内部安全项目而要求匿名）透露了这一点。（图片来源：Michael Nagle / Bloomberg）

据该人士介绍，过去需要数天甚至数周才能识别的「零日漏洞」（zero-day），以及为其编写利用代码的过程，如今借助 AI 最快只需一小时，甚至几分钟即可完成。所谓「零日漏洞」，是指防御方尚未察觉的安全缺陷，因此几乎没有时间进行修复。

目前，摩根大通的重点主要集中在供应链与开源软件领域，并已发现多项漏洞，同时将问题反馈给相关供应商。

公司首席执行官 Jamie Dimon 在财报电话会议上表示，Mythos 的出现「表明仍有大量漏洞亟待修复」。

Jamie Dimon 图片来源：Krisztian Bocsi / Bloomberg

据一位知情人士透露，在外界尚未获知 Mythos 存在之前，JPMorgan Chase 就已与 Anthropic 展开沟通，讨论对该模型进行测试。该人士因无权公开发言而要求匿名。摩根大通对此拒绝置评。

如今，其他华尔街银行与科技公司也在尝试使用 Mythos，以便在黑客发现漏洞之前，提前修补系统缺陷。根据彭博社报道，Goldman Sachs、Citigroup、Bank of America 以及 Morgan Stanley 等金融机构，均已在内部测试这一技术。

Cisco Systems 的员工正对一个问题格外警惕：入侵者是否会利用 AI，在其全球运行的网络设备软件中寻找突破路径——这些设备包括路由器、防火墙和调制解调器。该公司首席安全与信任官 Anthony Grieco 表示，他尤其担心 AI 会加速黑客对「生命周期已结束」的设备发起攻击——这类设备未来将不再获得 Cisco 的更新支持。

而如何修补 AI 发现的漏洞，仍将是一个长期难题。这个过程被称为「安全补丁」（security patching），对组织而言往往成本高昂、周期漫长，以至于不少机构选择对漏洞置之不理。像 Equifax 遭遇的那类灾难性攻击——约 1.47 亿人的数据被窃取——正是因为已知漏洞未被及时修复所致。

在 Equifax 的数据泄露事件中，入侵者窃取了约 1.47 亿人的个人记录。（图片来源：Elijah Nouvelage / Bloomberg）

尽管在拒绝协助开展针对美国公民的大规模监控后，Anthropic 曾被特朗普政府认定为「供应链威胁」，但该公司目前仍在与联邦机构展开沟通与合作。

美国财政部本周正寻求获得 Mythos 的使用权限。财政部长 Scott Bessent 表示，这一模型将有助于美国在人工智能领域维持对他国的领先优势。

Scott Bessent 图片来源：Matt McClain / Bloomberg

在一次测试中，Mythos 编写出一段浏览器攻击代码，将四个不同漏洞串联成一条完整的利用链——这类操作对人类黑客而言本身就是极具挑战的高难度任务。网络安全研究报告指出，这种「漏洞链」往往可以打通原本高度安全的系统边界，类似于当年 Stuxnet 攻击伊朗核设施离心机时所采用的方式。

此外，据 Anthropic 表示，在被明确指令引导的情况下，Mythos 甚至能够识别并利用所有主流浏览器中的「零日漏洞」。

Anthropic 表示，他们曾利用 Mythos 在 Linux 代码中发现漏洞。Jim Zemlin 指出，Linux「支撑着当今大多数计算系统」，从 Android 智能手机、互联网路由器，到 NASA 的超级计算机，几乎无处不在。Mythos 能够自主发现多个开源代码中的缺陷，而这些漏洞一旦被利用，攻击者甚至可以完全接管整台机器。

目前，Linux Foundation 已有数十名人员开始对 Mythos 进行测试。在 Zemlin 看来，一个关键问题是：Anthropic 的模型是否能够提供足够有价值的洞察，帮助开发者在源头上写出更安全的软件，从而减少漏洞的产生。

「我们很擅长发现漏洞，」他说，「但在修复它们这件事上，却做得很差。」

[原文链接]