ATR 設計給誰,以及不設計給誰。
ATR 的 419 條規則描述 AI agent 攻擊模式,用途是偵測。相同的描述可以被誤用來生成攻擊。本頁說明我們的設計意圖、已知的雙重用途風險、以及回報濫用的管道。
ATR 是防禦偵測工具。
在 CI/CD pipeline、agent runtime、或 MCP server 中執行 ATR 規則,偵測已知攻擊模式。Cisco AI Defense 和 Microsoft AGT 是生產環境的實際案例。
用 ATR 規則衡量你的紅隊工具找到的攻擊有多少已有偵測覆蓋,以及有多少是尚未有規則的新型態。這是 NVIDIA garak 整合的設計意圖。
ATR 規則映射到 OWASP、MITRE ATLAS、NIST AI RMF、EU AI Act、ISO 42001。用於生成合規證據包,或向採購委員會說明框架覆蓋。
引用特定 rule ID(例如 ATR-2026-00440)作為攻擊偵測的可執行基準。規則 ID 永久穩定,適合論文引用。
ATR 規則不應當作攻擊生成器使用。
ATR 的每條規則都包含攻擊模式的 regex 描述和 test cases(包含 true_positives)。這些 test_cases 的目的是驗證規則偵測能力,不是提供現成的攻擊 payload。
以下使用方式構成濫用:
- ▸將 true_positive test cases 直接作為對生產 AI agent 系統的攻擊 payload 使用。
- ▸將 ATR 規則的 regex 反向工程成繞過偵測的攻擊變體,並在未授權的環境中使用。
- ▸基於 ATR 規則庫建立攻擊自動化工具,目的是突破已部署 ATR 規則的系統。
- ▸使用 ATR 資料訓練攻擊模型,目的是生成能逃過 ATR 偵測的對抗性輸入。
MIT 授權允許任何使用,包括商業和分叉使用。本頁的濫用定義不是法律限制,而是清晰說明設計意圖,讓採用者在評估風險時有明確的參照。
我們知道這個標準是雙重用途的。
ATR 規則描述 AI agent 攻擊的行為特徵。描述攻擊模式的任何系統——無論是 CVE 資料庫、Sigma 規則、YARA 簽名、或 MITRE ATT&CK——都具有類似的雙重性質。公開攻擊模式的防禦效益是:讓防守方比攻擊方更快知道哪些技術已被記錄。
我們對此設計了兩個緩解措施:
- 1.規則中的 true_positive test cases 是最小化的模式範例,不是完整的攻擊鏈。它們足以驗證偵測,但需要額外的攻擊工程才能作為真實 exploit 使用。
- 2.特別危險的規則(高 CVSS、已在野外主動利用)在送 PR 前,我們遵循負責任揭露流程,確保受影響廠商有修補時間。ATR-2026-00440 和 ATR-2026-00441(Microsoft Semantic Kernel CVE)是一個案例:規則在 MSRC 公開揭露後才發布。
我們沒有導入 PyRIT 的 Pliny L1B3RT4S 資料集,因為 Anthropic 的使用政策不允許我們的 subagent 消費它。AdvBench、HarmBench、JailbreakBench 被重新分類為測試語料庫(data/test-corpora/),而非規則來源——這些資料集描述目標行為,而非包裝好的攻擊 payload。
如果你看到 ATR 被濫用。
我們沒有能力阻止濫用——MIT 授權不允許我們這樣做,也不是正確的工程做法。但我們確實想了解濫用案例,以便在文件和規則設計中做出回應。