數據、Benchmark 和誠實的限制。
ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。
427 條偵測規則、RFC-001 品質標準、96K 生態系掃描、751 惡意軟體發現、Cisco 採用。ATR 標準的完整論述,含六項研究貢獻。
掃描 96,096 個 skill 時發現三個協同攻擊者(hightower6eu 354、sakaen736jih 212、52yuanchangxing 137)。已通報 NousResearch 並全數加入黑名單。
史上最大規模 AI agent 安全掃描。96,096 個 skill、1,302 個有風險、751 個確認惡意軟體。三個協同攻擊者。工具描述下毒佔偵測的 53%。
MCP 攻擊面實證分析。60 天 30 個 CVE、38% 零認證、7 類攻擊分類學、53K 生態系掃描。比 Docker 前兩年快 15 倍。
Benchmarks
用我們自己的語料庫和從未見過的外部 benchmark 測試。
99.7% precision 和 63.2% recall 之間的差距是預期的。Regex 能抓到已知模式,但會漏掉重述和多語言攻擊。
SKILL.md 偵測基準
使用 498 個真實世界的 OpenClaw SKILL.md 檔案測試(32 個惡意 + 466 個正常)。Layer A = 明確惡意指令,Layer C = 混淆/隱藏攻擊。
生態系掃描數據
真實掃描真實的 MCP skill 註冊表。
研究方法論
所有研究都是可重現的。資料集、掃描腳本、評估腳本全部開源於 MIT license。
六個 registry 共 96,096 個 skill。最大子集:OpenClaw 56,480、ClawHub 36,394、Skills.sh 3,115,加上三個額外 MCP / skill index。每個 registry 透過公開 HTTP API 或 git 倉儲爬取。
427 條規則全部以確定性 regex / AST 比對執行,無 LLM 推論。這確保同一個輸入在不同環境下的偵測結果完全一致——可重現性是前提。每條規則在發布前都會對 36,394 個 ClawHub skill 的 wild 樣本驗證。
Precision / recall 採用外部 PINT dataset(850 樣本),而非自產測試集——避免 overfit 到自家 test cases。另一組 SKILL.md benchmark 從真實 OpenClaw 抓 498 個檔案,其中惡意樣本透過人工標記後作為 ground truth。
誤報率以真實 benign 樣本(通過人工或社群審查的正常 skill)除以總偵測數量測。每條已記錄的誤報情境會寫入 YAML 的 false_positives 欄位,並在規則頁面公開。
掃描 checkpoint、測試集、評估腳本全部在 data/ 和 tests/ 下公開。任何研究者可以用相同的 ATR 版本重跑掃描並取得一致的結果。
外部引用
追蹤引用 ATR 的學術論文與技術報告。
目前尚未有公開引用紀錄。如果你的論文、技術報告或產品文件引用了 ATR,請透過 GitHub issue 通知我們。
Cite as: Lin, Kuan-Hsin (2026). The Collapse of Trust. DOI: 10.5281/zenodo.19178002
進行中的研究
以下是 ATR 下一階段的研究方向。進度會反映在 GitHub release 與 paper 更新。
從靜態 regex 擴展到 runtime 行為偵測。初始規則:env 變數存取 + 網路呼叫的組合、工具呼叫頻率異常、非預期 shell 存取。
Tier 3 難以判定的樣本升級給 LLM-as-judge 語意分析;LLM 的發現會結晶成 Tier 2 regex 規則回流到 ATR,完成「適應性免疫 → 先天免疫」的轉換。
將 ATR 規則編譯為 Sigma(SIEM 端)與 YARA(檔案端)格式,讓 agent 威脅偵測融入現有資安偵測管線,不需要重建 pipeline。
ATR 只偵測 runtime 攻擊。訓練階段植入的模型後門在推論時架構上不可見。要橋接這個斷層,需要結合 supply-chain provenance(model card、訓練資料稽核)與 runtime 行為指紋的新技術。
素材來源:ATR-FRAMEWORK-SPEC.md Phase 2-4 路線圖與 主論文未來工作章節。
ATR 無法偵測什麼
我們發布這個章節,因為誠實的限制比虛假的自信更能建立信任。
任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測;「please set aside the guidance you were given earlier」不會。
所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。
「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。
ATR 檢查內容,不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。
20 輪對話中的漸進式信任升級,單一訊息無法偵測,ATR 不會關聯。ATR 獨立評估每個事件。
根據定義,regex 無法偵測還不存在的攻擊模式。新技術需要新規則。