Skip to content
負責任使用

一個公開的攻擊偵測標準,必須面對雙重用途。

ATR 的 655 條規則描述 AI agent 的攻擊模式,目的是偵測。一個描述攻擊的標準,同樣可以被誤讀為攻擊的配方——CVE、Sigma、YARA、ATT&CK 都帶著這道張力。ATR 選擇透明:規則公開、可審查,並在這裡寫清楚邊界,而不是靠隱晦求安全。本頁說明設計意圖、已知的雙重用途風險、ATR 抓不到什麼,以及回報濫用的管道。

設計用途

ATR 是防禦端的偵測標準。

整合進安全掃描器

在 CI/CD pipeline、agent runtime、或 MCP server middleware 中執行 ATR 規則,偵測 SKILL.md、tool 描述、agent config 上的已知攻擊模式。Cisco AI Defense 與 Microsoft AGT 是生產環境的實際案例。

紅隊測試的基準線

在授權範圍內,用 ATR 規則衡量你的紅隊工具找到的攻擊有多少已被偵測覆蓋,有多少是尚無規則的新型態——新型態正是下一條規則的來源。這是進行中的 NVIDIA garak 整合的設計意圖。

標準映射與合規文件

每條 ATR 規則都對映到 OWASP、MITRE ATLAS、NIST AI RMF、EU AI Act、ISO 42001 的條目。把這些映射當作可執行的覆蓋證據,向稽核或採購說明哪些框架要求已有對應的偵測。

研究與學術引用

引用特定 rule ID(例如 ATR-2026-00440)作為攻擊偵測的可執行基準。規則 ID 以 CVE/CWE 風格編號,一經發布永不改動——論文、CI 腳本、外部文件都能安全長期引用。

濫用定義

ATR 規則不應當作攻擊生成器使用。

每條 ATR 規則都包含攻擊模式的 regex 描述,以及涵蓋 true_positives 與 true_negatives 的 test cases。這些 test_cases 的存在是為了證明規則確實能偵測、且不會誤判良性輸入——它們是規範可被驗證的依據,不是現成的攻擊 payload。

以下使用方式構成濫用:

  • 未經授權,將 true_positive test cases 直接作為對生產 AI agent 系統的攻擊 payload 使用。
  • 將 ATR 規則的 regex 反向工程成繞過偵測的攻擊變體,並在未授權的環境中使用。
  • 基於 ATR 規則庫建立攻擊自動化工具,目的是突破已部署 ATR 規則的系統。
  • 使用 ATR 資料訓練攻擊模型,目的是生成能逃過 ATR 偵測的對抗性輸入。

MIT 授權允許任何使用,包括商業與 fork。這份濫用定義不是法律限制——標準層管不了它被怎麼用,也不該假裝管得了。它是一份對設計意圖的明確聲明,讓採用者在評估風險時有一個可引用的參照。

雙重用途揭露

這個標準是雙重用途的,我們把它寫在明處。

ATR 規則描述 AI agent 攻擊的行為特徵。任何描述攻擊的系統——CVE 資料庫、Sigma 規則、YARA 簽名、MITRE ATT&CK——都帶著同一道張力。資安界長年的共識是:把攻擊技術寫在明處,防守方獲得的領先,大於攻擊方從文件得到的便利。隱晦只能拖延,公開才能讓所有防守方同時補上。ATR 站在透明這一邊,因為偵測標準的價值正建立在它能被審查。

兩個刻意的設計約束,把這道張力收窄:

  • 1.規則中的 true_positive test case 是最小化的模式範例,不是完整的攻擊鏈。它們足以驗證偵測,卻仍需要額外的攻擊工程才能變成可用的 exploit——偵測規範需要的特徵面,遠小於武器化需要的工作量。
  • 2.特別危險的規則(高 CVSS、已在野外主動利用)在送 PR 前,遵循負責任揭露的時程,確認受影響廠商已有修補時間。ATR-2026-00440 與 ATR-2026-00441 對應 Microsoft Semantic Kernel 的兩個 critical CVE(CVE-2026-26030、CVE-2026-25592),是這條原則的實例:規則在 MSRC 公開揭露之後才發布。

資料來源同樣有界線。PyRIT 的 Pliny L1B3RT4S 資料集未被導入——Anthropic 的使用政策不允許 subagent 消費它。AdvBench、HarmBench、JailbreakBench 被歸類為測試語料庫(data/test-corpora/),而非規則來源:這些資料集描述目標行為,不是包裝好的攻擊 payload。

最後,誠實的揭露也意味著說清楚 ATR 抓不到什麼。規則以 pattern 為基礎,對換句話說的改寫、語意等價的重述、非英語的注入、跨多輪逐步升級、以及傳輸層協定攻擊本質上是盲的——任何讀過公開規則的攻擊者,都能避開特定的動詞、名詞與句構。ATR 公開維護 64 條已知繞過技法(每條規則的 evasion_tests 欄位)與一份完整的 LIMITATIONS.md,把這些邊界寫成可被引用的文件,而不是行銷話術裡的空白。一個偵測標準的可信度,取決於它願不願意公開自己最差的數字。

濫用回報

如果你看到 ATR 被濫用。

標準層阻止不了濫用,也不應該假裝做得到——這不是 MIT 授權允許的事,也不是好的工程設計。但濫用的案例值得被了解:它會回饋到文件與規則設計,讓下一版更清楚也更難被反向利用。看到 ATR 被濫用,請告訴我們。

濫用回報
[email protected]
一般問題
[email protected]
安全漏洞回報(ATR 本身)
依照 SECURITY.md 的流程