Anthropic 指控 DeepSeek、Moonshot 等三家中國AI實驗室大規模「蒸餾」Claude模型，涉逾1,600萬次交互

文章封面

Anthropic 指控 DeepSeek、Moonshot 等三家中國AI實驗室大規模「蒸餾」Claude模型，涉逾1,600萬次交互

人工智慧安全與研究公司 Anthropic 於2月23日發布官方聲明，指控三家中國AI實驗室——DeepSeek（深度求索）、Moonshot AI（月之暗面）及 MiniMax（稀宇科技）——涉嫌通過大規模“蒸餾攻擊”（distillation attacks），未經授權提取其先進模型 Claude 的能力，以用於改進自身模型。 Anthropic 稱，這是一項工業規模的侵權行動，嚴重違反其服務條款與區域訪問限制。

「蒸餾」技術的合法與非法應用

Anthropic 在聲明中解釋，「蒸餾」是業界常見的技術，指用能力較強的模型（如Claude）所產生的輸出，來訓練一個較小的模型。前沿AI實驗室通常會合法地蒸餾自家模型，以創建更小、更經濟的版本提供給客戶。然而，這項技術也可被競爭對手用於非法目的：以遠低於自主研發的時間和成本，取得其他實驗室的核心能力。

三家公司具體指控與規模

根據 Anthropic 的調查，這三個實驗室使用了類似的策略，通過約 24,000 個欺詐性賬戶和代理服務，總計生成了超過 1,600 萬次與 Claude 的交互，有針對性地提取其最具差異化的能力，如代理推理、工具使用和編程。具體指控如下：

DeepSeek（深度求索）：涉及超過 15 萬次互動。其操作目標包括提取跨多樣任務的推理能力、讓 Claude 充當強化學習的獎勵模型，以及為政治敏感查詢產生規避審查的替代答案。 Anthropic 指出，其提示詞曾要求 Claude 想像並逐步寫出完成回應的內部推理過程，實際上是在大規模產生思維鏈訓練數據。

Moonshot AI（月之暗面，Kimi 模型開發者）：涉及超過 340 萬次互動。目標集中在代理推理與工具使用、編程與數據分析，以及電腦使用代理和計算機視覺的開發。 Anthropic 稱，通過請求元數據追溯到該實驗室的資深員工。

MiniMax（稀宇科技）：涉及超過 1,300 萬次互動。主要目標是提取代理程式設計、工具使用及編排能力。 Anthropic 表示，在攻擊進行期間（即 MiniMax 發布其正在訓練的模型之前）就檢測到此次行動，從而罕見地觀察到從數據生成到模型發布的完整攻擊生命週期。

文章圖片

國家安全風險與出口管制

Anthropic 強調，非法蒸餾的模型往往缺乏必要的安全防護措施，可能帶來顯著的國家安全風險。例如，美國公司建構的系統旨在防止國家和非國家行為者利用 AI 開發生物武器或進行惡意網絡活動，但蒸餾後的模型可能完全喪失這些防護。若這些不受保護的能力被用於軍事、情報或監控系統，將帶來極大隱患。

Anthropic 表示，此次揭露旨在證明對先進晶片的出口管制有其必要性——限制晶片訪問既能直接限制模型訓練，也能限制大規模非法蒸餾的規模。若沒有對這些攻擊的洞察，這些實驗室看似迅速的進步，可能會被錯誤地解讀為出口管制無效的證據。

Anthropic 的應對措施

該公司表示，正持續投資於防禦措施，包括：

偵測系統：建立多個分類器和行為指紋系統，以識別 API 流量中的蒸餾攻擊模式。

情報共享：與其他AI實驗室、雲端服務提供者及相關當局共享技術指標。

訪問控制：加強對教育帳戶、安全研究計劃和新創組織的驗證。

反制措施：開發產品、API 和模型層級的安全措施，旨在降低模型輸出對非法蒸餾的效用。

Anthropic 最後指出，此規模的蒸餾攻擊需要整個AI行業、雲端服務提供者和政策制定者協調應對，並表示發布此報告是為了讓所有利益相關者了解相關證據。截至發稿，被點名的 DeepSeek、Moonshot 及 MiniMax 尚未對此公開回應。