Skip to content
研究

數據、Benchmark 和誠實的限制。

ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。

April 2026 · 25 pages · 67 references
信任的崩塌:自主 AI Agent 時代的安全架構

427 條偵測規則、RFC-001 品質標準、96K 生態系掃描、751 惡意軟體發現、Cisco 採用。ATR 標準的完整論述,含六項研究貢獻。

April 2026
751 個惡意 AI Agent Skill:史上最大規模的 AI Agent 惡意軟體行動

掃描 96,096 個 skill 時發現三個協同攻擊者(hightower6eu 354、sakaen736jih 212、52yuanchangxing 137)。已通報 NousResearch 並全數加入黑名單。

April 2026 · 7 pages · 32 references
96,096 Skills, 751 Malware: A Large-Scale Security Audit of the AI Agent Ecosystem

史上最大規模 AI agent 安全掃描。96,096 個 skill、1,302 個有風險、751 個確認惡意軟體。三個協同攻擊者。工具描述下毒佔偵測的 53%。

April 2026 · 18 pages · 30 references
30 CVEs in 60 Days: The Model Context Protocol Attack Surface

MCP 攻擊面實證分析。60 天 30 個 CVE、38% 零認證、7 類攻擊分類學、53K 生態系掃描。比 Docker 前兩年快 15 倍。

Benchmarks

用我們自己的語料庫和從未見過的外部 benchmark 測試。

PINT(外部對抗測試)
99.7%
Precision
63.2%
Recall
77.3
F1
850 個樣本
Self-Test(自有規則)
100%
Precision
89.4%
Recall
341
樣本數

99.7% precision 和 63.2% recall 之間的差距是預期的。Regex 能抓到已知模式,但會漏掉重述和多語言攻擊。

SKILL.md 偵測基準

使用 498 個真實世界的 OpenClaw SKILL.md 檔案測試(32 個惡意 + 466 個正常)。Layer A = 明確惡意指令,Layer C = 混淆/隱藏攻擊。

整體表現
100%
Recall
97%
Precision
98.5
F1
0.2%
誤報率
498
真實樣本
按攻擊層分析
Layer A100%
明確惡意指令 — 24/24 全部偵測
Layer C100%
混淆/隱藏攻擊 — 8/8 全部偵測
正常樣本1 FP
466 個正常 SKILL.md — 1 個誤報(0.20%)

生態系掃描數據

真實掃描真實的 MCP skill 註冊表。

生態系掃描(6 個 Registry)
96,096
個 skill 已掃描
989
CRITICAL
353
HIGH
1,302
總標記數
ClawHub Registry Scan
36,394
個 skill 已爬取
182
CRITICAL
1,124
HIGH
9,676
含原始碼

研究方法論

所有研究都是可重現的。資料集、掃描腳本、評估腳本全部開源於 MIT license。

掃描範圍

六個 registry 共 96,096 個 skill。最大子集:OpenClaw 56,480、ClawHub 36,394、Skills.sh 3,115,加上三個額外 MCP / skill index。每個 registry 透過公開 HTTP API 或 git 倉儲爬取。

偵測引擎

427 條規則全部以確定性 regex / AST 比對執行,無 LLM 推論。這確保同一個輸入在不同環境下的偵測結果完全一致——可重現性是前提。每條規則在發布前都會對 36,394 個 ClawHub skill 的 wild 樣本驗證。

基準測試

Precision / recall 採用外部 PINT dataset(850 樣本),而非自產測試集——避免 overfit 到自家 test cases。另一組 SKILL.md benchmark 從真實 OpenClaw 抓 498 個檔案,其中惡意樣本透過人工標記後作為 ground truth。

誤報量測

誤報率以真實 benign 樣本(通過人工或社群審查的正常 skill)除以總偵測數量測。每條已記錄的誤報情境會寫入 YAML 的 false_positives 欄位,並在規則頁面公開。

重現性

掃描 checkpoint、測試集、評估腳本全部在 data/tests/ 下公開。任何研究者可以用相同的 ATR 版本重跑掃描並取得一致的結果。

外部引用

追蹤引用 ATR 的學術論文與技術報告。

目前尚未有公開引用紀錄。如果你的論文、技術報告或產品文件引用了 ATR,請透過 GitHub issue 通知我們。

Cite as: Lin, Kuan-Hsin (2026). The Collapse of Trust. DOI: 10.5281/zenodo.19178002

進行中的研究

以下是 ATR 下一階段的研究方向。進度會反映在 GitHub release 與 paper 更新。

Tier 3 行為評估層
進行中

從靜態 regex 擴展到 runtime 行為偵測。初始規則:env 變數存取 + 網路呼叫的組合、工具呼叫頻率異常、非預期 shell 存取。

Tier 4 語意評估 + 結晶 pipeline
設計中

Tier 3 難以判定的樣本升級給 LLM-as-judge 語意分析;LLM 的發現會結晶成 Tier 2 regex 規則回流到 ATR,完成「適應性免疫 → 先天免疫」的轉換。

Sigma / YARA 跨格式相容
規劃中

將 ATR 規則編譯為 Sigma(SIEM 端)與 YARA(檔案端)格式,讓 agent 威脅偵測融入現有資安偵測管線,不需要重建 pipeline。

訓練 ↔ runtime 偵測邊界
開放問題

ATR 只偵測 runtime 攻擊。訓練階段植入的模型後門在推論時架構上不可見。要橋接這個斷層,需要結合 supply-chain provenance(model card、訓練資料稽核)與 runtime 行為指紋的新技術。

素材來源:ATR-FRAMEWORK-SPEC.md Phase 2-4 路線圖與 主論文未來工作章節。

ATR 無法偵測什麼

我們發布這個章節,因為誠實的限制比虛假的自信更能建立信任。

重述攻擊

任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測;「please set aside the guidance you were given earlier」不會。

多語言攻擊

所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。

上下文相關攻擊

「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。

協議層攻擊

ATR 檢查內容,不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。

多輪行為模式

20 輪對話中的漸進式信任升級,單一訊息無法偵測,ATR 不會關聯。ATR 獨立評估每個事件。

新型攻擊

根據定義,regex 無法偵測還不存在的攻擊模式。新技術需要新規則。