Skip to content
研究

數據、Benchmark 和誠實的限制。

ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。

v4April 2026 · 23 pages · 65 references
信任的崩塌:自主 AI Agent 時代的安全架構

108 條偵測規則、雙 benchmark(PINT 99.6% precision + SKILL.md 96.9% recall)、53K mega scan、Cisco 採用。ATR 標準的完整論述。

April 2026 · 10 pages · 25 references
53,577 Skills, 946 Threats: The First Large-Scale Security Audit of the AI Agent Ecosystem

史上最大規模 AI agent 安全掃描。53,577 個 skill、946 個威脅、875 嚴重、0% 誤報。工具描述下毒佔偵測的 71%。

April 2026 · 14 pages · 22 references
30 CVEs in 60 Days: The Model Context Protocol Attack Surface

MCP 攻擊面實證分析。60 天 30 個 CVE、38% 零認證、7 類攻擊分類學、53K 生態系掃描。比 Docker 前兩年快 15 倍。

Benchmarks

用我們自己的語料庫和從未見過的外部 benchmark 測試。

PINT(外部對抗測試)
99.6%
Precision
61.4%
Recall
76
F1
850 個樣本
Self-Test(自有規則)
100%
Precision
88.5%
Recall
341
樣本數

99.6% precision 和 61.4% recall 之間的差距是預期的。Regex 能抓到已知模式,但會漏掉重述和多語言攻擊。

SKILL.md 偵測基準

使用 498 個真實世界的 OpenClaw SKILL.md 檔案測試(32 個惡意 + 466 個正常)。Layer A = 明確惡意指令,Layer C = 混淆/隱藏攻擊。

整體表現
96.9%
Recall
100%
Precision
98.4
F1
0%
誤報率
498
真實樣本
按攻擊層分析
Layer A100%
明確惡意指令 — 24/24 全部偵測
Layer C87.5%
混淆/隱藏攻擊 — 7/8 偵測(1 個 rug-pull timebomb 未偵測)
正常樣本0 FP
466 個正常 SKILL.md — 零誤報

生態系掃描數據

真實掃描真實的 MCP skill 註冊表。

Mega Scan (OpenClaw + Skills.sh)
53,577
個 skill 已掃描
875
CRITICAL
52
HIGH
946
總標記數
ClawHub Registry Scan
36,394
個 skill 已爬取
182
CRITICAL
1,124
HIGH
9,676
含原始碼

ATR 無法偵測什麼

我們發布這個章節,因為誠實的限制比虛假的自信更能建立信任。

重述攻擊

任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測;「please set aside the guidance you were given earlier」不會。

多語言攻擊

所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。

上下文相關攻擊

「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。

協議層攻擊

ATR 檢查內容,不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。

多輪行為模式

20 輪對話中的漸進式信任升級,單一訊息無法偵測,ATR 不會關聯。ATR 獨立評估每個事件。

新型攻擊

根據定義,regex 無法偵測還不存在的攻擊模式。新技術需要新規則。