
Anthropic 指控 DeepSeek、Moonshot 等三家中國AI實驗室大規模「蒸餾」Claude模型,涉逾1,600萬次交互
人工智慧安全與研究公司 Anthropic 於2月23日發布官方聲明,指控三家中國AI實驗室——DeepSeek(深度求索)、Moonshot AI(月之暗面)及 MiniMax(稀宇科技)——涉嫌通過大規模“蒸餾攻擊”(distillation attacks),未經授權提取其先進模型 Claude 的能力,以用於改進自身模型。 Anthropic 稱,這是一項工業規模的侵權行動,嚴重違反其服務條款與區域訪問限制。
「蒸餾」技術的合法與非法應用
Anthropic 在聲明中解釋,「蒸餾」是業界常見的技術,指用能力較強的模型(如Claude)所產生的輸出,來訓練一個較小的模型。前沿AI實驗室通常會合法地蒸餾自家模型,以創建更小、更經濟的版本提供給客戶。然而,這項技術也可被競爭對手用於非法目的:以遠低於自主研發的時間和成本,取得其他實驗室的核心能力。
三家公司具體指控與規模
根據 Anthropic 的調查,這三個實驗室使用了類似的策略,通過約 24,000 個欺詐性賬戶和代理服務,總計生成了超過 1,600 萬次與 Claude 的交互,有針對性地提取其最具差異化的能力,如代理推理、工具使用和編程。具體指控如下:
DeepSeek(深度求索):涉及超過 15 萬次互動。其操作目標包括提取跨多樣任務的推理能力、讓 Claude 充當強化學習的獎勵模型,以及為政治敏感查詢產生規避審查的替代答案。 Anthropic 指出,其提示詞曾要求 Claude 想像並逐步寫出完成回應的內部推理過程,實際上是在大規模產生思維鏈訓練數據。
Moonshot AI(月之暗面,Kimi 模型開發者):涉及超過 340 萬次互動。目標集中在代理推理與工具使用、編程與數據分析,以及電腦使用代理和計算機視覺的開發。 Anthropic 稱,通過請求元數據追溯到該實驗室的資深員工。
MiniMax(稀宇科技):涉及超過 1,300 萬次互動。主要目標是提取代理程式設計、工具使用及編排能力。 Anthropic 表示,在攻擊進行期間(即 MiniMax 發布其正在訓練的模型之前)就檢測到此次行動,從而罕見地觀察到從數據生成到模型發布的完整攻擊生命週期。

國家安全風險與出口管制
Anthropic 強調,非法蒸餾的模型往往缺乏必要的安全防護措施,可能帶來顯著的國家安全風險。例如,美國公司建構的系統旨在防止國家和非國家行為者利用 AI 開發生物武器或進行惡意網絡活動,但蒸餾後的模型可能完全喪失這些防護。若這些不受保護的能力被用於軍事、情報或監控系統,將帶來極大隱患。
Anthropic 表示,此次揭露旨在證明對先進晶片的出口管制有其必要性——限制晶片訪問既能直接限制模型訓練,也能限制大規模非法蒸餾的規模。若沒有對這些攻擊的洞察,這些實驗室看似迅速的進步,可能會被錯誤地解讀為出口管制無效的證據。
Anthropic 的應對措施
該公司表示,正持續投資於防禦措施,包括:
偵測系統:建立多個分類器和行為指紋系統,以識別 API 流量中的蒸餾攻擊模式。
情報共享:與其他AI實驗室、雲端服務提供者及相關當局共享技術指標。
訪問控制:加強對教育帳戶、安全研究計劃和新創組織的驗證。
反制措施:開發產品、API 和模型層級的安全措施,旨在降低模型輸出對非法蒸餾的效用。
Anthropic 最後指出,此規模的蒸餾攻擊需要整個AI行業、雲端服務提供者和政策制定者協調應對,並表示發布此報告是為了讓所有利益相關者了解相關證據。截至發稿,被點名的 DeepSeek、Moonshot 及 MiniMax 尚未對此公開回應。
留言區 (0)