數據、Benchmark 和誠實的限制。
ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。
108 條偵測規則、雙 benchmark(PINT 99.6% precision + SKILL.md 96.9% recall)、53K mega scan、Cisco 採用。ATR 標準的完整論述。
史上最大規模 AI agent 安全掃描。53,577 個 skill、946 個威脅、875 嚴重、0% 誤報。工具描述下毒佔偵測的 71%。
MCP 攻擊面實證分析。60 天 30 個 CVE、38% 零認證、7 類攻擊分類學、53K 生態系掃描。比 Docker 前兩年快 15 倍。
Benchmarks
用我們自己的語料庫和從未見過的外部 benchmark 測試。
99.6% precision 和 61.4% recall 之間的差距是預期的。Regex 能抓到已知模式,但會漏掉重述和多語言攻擊。
SKILL.md 偵測基準
使用 498 個真實世界的 OpenClaw SKILL.md 檔案測試(32 個惡意 + 466 個正常)。Layer A = 明確惡意指令,Layer C = 混淆/隱藏攻擊。
生態系掃描數據
真實掃描真實的 MCP skill 註冊表。
ATR 無法偵測什麼
我們發布這個章節,因為誠實的限制比虛假的自信更能建立信任。
任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測;「please set aside the guidance you were given earlier」不會。
所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。
「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。
ATR 檢查內容,不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。
20 輪對話中的漸進式信任升級,單一訊息無法偵測,ATR 不會關聯。ATR 獨立評估每個事件。
根據定義,regex 無法偵測還不存在的攻擊模式。新技術需要新規則。