研究

數據、Benchmark 和誠實的限制。

ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。

v4April 2026 · 23 pages · 65 references

信任的崩塌：自主 AI Agent 時代的安全架構

108 條偵測規則、雙 benchmark（PINT 99.6% precision + SKILL.md 96.9% recall）、53K mega scan、Cisco 採用。ATR 標準的完整論述。

Zenodo DOI PDF (GitHub)SSRN: 6457179

新April 2026 · 10 pages · 25 references

53,577 Skills, 946 Threats: The First Large-Scale Security Audit of the AI Agent Ecosystem

史上最大規模 AI agent 安全掃描。53,577 個 skill、946 個威脅、875 嚴重、0% 誤報。工具描述下毒佔偵測的 71%。

PDF (GitHub)

新April 2026 · 14 pages · 22 references

30 CVEs in 60 Days: The Model Context Protocol Attack Surface

MCP 攻擊面實證分析。60 天 30 個 CVE、38% 零認證、7 類攻擊分類學、53K 生態系掃描。比 Docker 前兩年快 15 倍。

PDF (GitHub)

Benchmarks

用我們自己的語料庫和從未見過的外部 benchmark 測試。

PINT（外部對抗測試）

99.6%

Precision

61.4%

Recall

850 個樣本

Self-Test（自有規則）

100%

Precision

88.5%

Recall

341

樣本數

99.6% precision 和 61.4% recall 之間的差距是預期的。Regex 能抓到已知模式，但會漏掉重述和多語言攻擊。

SKILL.md 偵測基準

使用 498 個真實世界的 OpenClaw SKILL.md 檔案測試（32 個惡意 + 466 個正常）。Layer A = 明確惡意指令，Layer C = 混淆/隱藏攻擊。

整體表現

96.9%

Recall

100%

Precision

98.4

誤報率

498

真實樣本

按攻擊層分析

Layer A100%

明確惡意指令 — 24/24 全部偵測

Layer C87.5%

混淆/隱藏攻擊 — 7/8 偵測（1 個 rug-pull timebomb 未偵測）

正常樣本0 FP

466 個正常 SKILL.md — 零誤報

生態系掃描數據

真實掃描真實的 MCP skill 註冊表。

Mega Scan (OpenClaw + Skills.sh)

53,577

個 skill 已掃描

875

CRITICAL

HIGH

946

總標記數

ClawHub Registry Scan

36,394

個 skill 已爬取

182

CRITICAL

1,124

HIGH

9,676

含原始碼

下載原始數據 (CSV)→下載統計 (JSON)→

ATR 無法偵測什麼

我們發布這個章節，因為誠實的限制比虛假的自信更能建立信任。

重述攻擊

任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測；「please set aside the guidance you were given earlier」不會。

多語言攻擊

所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。

上下文相關攻擊

「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。

協議層攻擊

ATR 檢查內容，不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。

多輪行為模式

20 輪對話中的漸進式信任升級，單一訊息無法偵測，ATR 不會關聯。ATR 獨立評估每個事件。

新型攻擊

根據定義，regex 無法偵測還不存在的攻擊模式。新技術需要新規則。

完整限制文件，包含 64 個 evasion test→