標準覆蓋

框架定義威脅，ATR 讓它跑起來。

MITRE ATLAS、OWASP、NIST AI RMF、ISO 42001——六個框架分類「什麼會出錯」。ATR 是其下可執行的那一層：能在真實 agent 成品上開火的偵測。每一條規則都帶有這六個框架的對應，並由 CI 強制。

如何解讀這些數字

PINT (850 samples)

ATR 在 850 個 PINT 格式對抗性樣本（自建語料，來自 deepset + Lakera Gandalf，非 Lakera 官方私有 benchmark）上達到 63.2% 召回率、99.7% 精準度、0.25% FP——代表規則在真實 MCP 流量中幾乎不誤報。

HackAPrompt (4,780 samples)

ATR 在 4,780 個 HackAPrompt 競賽樣本上達到 66.0% 召回率、100% 精準度，且不誤報。

Self-test (341 samples)

ATR 在 341 個內部自測樣本上達到 89.4% 召回率、100% 精準度、0% FP——這是與 SKILL.md benchmark 分開的獨立語料。

garak (650 in-the-wild / 3,475 full)

ATR 對 garak in-the-wild jailbreak 集（650 個 prompt）達到 98.0% 召回率；對完整 23-probe garak 套件（3,475 個 prompt）為 38.5%。

OWASP Agentic

10/10

SAFE-MCP

78/85 (91.8%)

OWASP AST10

7/10

PINT F1

77.7

OWASP Agentic Top 10

10/10 個類別都有開火的規則——不是打勾，是偵測。

類別

規則數

狀態

ASI01

Agent Goal Hijack

STRONG

ASI02

Tool Misuse & Exploitation

STRONG

ASI03

Identity & Privilege Abuse

STRONG

ASI04

Agentic Supply Chain Vulnerabilities

STRONG

ASI05

Unexpected Code Execution / RCE

STRONG

ASI06

Memory & Context Poisoning

STRONG

ASI07

Insecure Inter-Agent Communication

MODERATE

ASI08

Cascading Failures

MODERATE

ASI09

Human-Agent Trust Exploitation

MODERATE

ASI10

Rogue Agents

MODERATE

OWASP Agentic Skills Top 10 (AST10)

8/10 個類別有規則覆蓋。3 個類別屬於流程/元層級（無法用模式偵測）。

類別

規則數

狀態

AST01

Malicious Skills

STRONG

AST02

Supply Chain Compromise

STRONG

AST03

Over-Privileged Skills

MODERATE

AST04

Insecure Metadata

MODERATE

AST05

Unsafe Deserialization

MODERATE

AST06

Weak Isolation

PARTIAL

AST07

Update Drift

PARTIAL

AST08

Poor Scanning

GAP (meta-concern)

AST09

No Governance

GAP (process-level)

AST10

Cross-Platform Reuse

PARTIAL

SAFE-MCP

85 項 MCP 攻擊技術中，78 項有對應的偵測規則（91.8%）——其餘 7 項是已知缺口，未補的我們直說。對應表正隨類別重整持續校訂。

在 GitHub 查看完整 SAFE-MCP 對應表→

MITRE ATLAS

每條規則的 YAML 都帶有 MITRE ATLAS 參照——這是 ATR 對六個框架（ATLAS、OWASP Agentic、OWASP LLM、EU AI Act、NIST AI RMF、ISO 42001）逐條對應的一部分。沒有對應的規則進不了 main，由 CI 強制。在規則瀏覽器中依戰術分組。

瀏覽含 MITRE 對應的規則→