跳到主要內容
Anthropic 把最強的 AI 模型關進籠子:Mythos 找出上千漏洞,卻決定不發售

Anthropic 把最強的 AI 模型關進籠子:Mythos 找出上千漏洞,卻決定不發售

Anthropic 手上有顆目前為止能力最強的 AI 模型。它可以在各大作業系統和瀏覽器裡挖出幾千個安全漏洞,其中有些問題已經存在了十幾二十年了。

然後他們決定:這東西不賣了。

Project Glasswing:一個安靜但龐大的行動

這個模型叫做 Claude Mythos Preview,而 Anthropic 為它啟動的秘密專案叫做 Project Glasswing。

做法不是開源,不是公開發布,也不是賣給企業。Anthropic 直接去找了那些「真正在維護網際神經網路的人」——包括 Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、Nvidia、Palo Alto Networks 在內的十一家合作夥伴,加上額外四十幾個維護關鍵軟體基礎設施的組織,全部開放使用權限。

Anthropic 承諾在這個專案上投入最高一億美元的使用額度,另外直接捐了四百萬美元給開源安全組織。其中兩百五十萬美元透過 Linux Foundation 给了 Alpha-Omega 和 OpenSSF,一百五十萬美元給了 Apache Software Foundation。

這模型本來不是拿來做資安的

最有意思的地方在於:Mythos Preview 根本沒有受過資安訓練。Anthropic 自己承認,這些能力是模型在程式碼、推理和自主性方面全面進步之後「自然長出來」的。

換句話說,讓這個模型更會補漏洞的同時,它也更會挖漏洞。

實戰成績確實嚇人。它在 OpenBSD 上找到了一個存在二十七年的 bug——而且 OpenBSD 是以安全性著稱的作業系統。另一個案例裡,模型完全自主地識別並利用了 FreeBSD 裡一個十七年的遠端程式碼執行漏洞(CVE-2026-4747),讓任何未經驗證的使用者可以從網路上任何地方取得 NFS 伺服器的完整控制權。而整個發現和利用的過程中,除了最初下指令的那個 prompt 之外,沒有人類參與。

Anthropic 研究團隊的 Nicholas Carlini 是這樣說的:

「這個模型可以把三個、四個、甚至五個弱點串在一起,最終達成某種非常複雜的攻擊結果。過去幾週我找到的 bug 數量,比我這輩子找到的加起來還多。」

為什麼不發布?

Newton Cheng,Anthropic 的前線紅隊資安負責人,給出了理由:

「我們不打算將 Claude Mythos Preview 全面開放,因為它的網路安全能力實在太強了。以目前 AI 的進步速度,這種能力很快就會擴散——而那些持有者未必都願意安全地使用它。一旦出事,對經濟、公共安全和國家安全的衝擊可能相當嚴重。」

這段話不是理論性的擔憂。Anthropic 之前已經披露過一個被它認為「首度有文件記載、由 AI 大規模執行的網路攻擊」事件:一個中國支持的駭客組織用 AI agent 自主潛入了大約三十個全球目標,戰術操作的大部分環節都是 AI 獨立完成的。

據報導,Anthropic 也已經私下向美國高層官員簡報了 Mythos Preview 的完整能力。情報界正在積極評估這個模型會如何改寫進攻和防禦兩側的黑客作戰。

開源世界的老問題

Linux Foundation 執行長 Jim Zemlin 說了一句很直接的話:

「過去,資安專業能力是只有大型安全團隊的組織才負擔得起的奢侈品。開源維護者們的軟體撐起了世界上大部分的關鍵基礎設施,卻只能自己想辦法解決資安問題。」

這段話就是為什麼 Anthropic 要把錢直接丟給開源組織。那些維護世界關鍵程式碼的人,終於可以用以前不可能負擔的規模進行 AI 資安掃描。

下一步

Anthropic 說,最終目標還是要把 Mythos 等級的模型大規模部署出去,但那要等到新的防護機制到位之後。他們計畫先在下一版的 Claude Opus 上推出新的安全措施,用一個風險等級比較可控的模型來打磨流程。

市場競爭的畫面也在改變。OpenAI 在二月發布的 GPT-5.3-Codex,是公司第一個在其 Preparedness Framework 下被歸類為「高資安能力」的模型。Anthropic 這次用 Glasswing 傳遞的訊號很明確:頂尖實驗室們正在把「受控部署」設定為這個能力等級的新標準。

但這個標準能不能在這些能力持續擴散的情況下站得住腳,目前沒有人能給答案。


延伸閱讀