RFC-001 · 品質標準

具備
來源追溯的
AI Agent 規則品質標準

一個偵測標準的可信度,取決於它願不願意公開自己最差的數字。每條規則都有可自行計算的信心分數,每個對應都有可審計的來源,每條偵測車道的誤報率都逐車道揭露——不是用單一個好看的數字概括。沒有黑箱、沒有廠商鎖定:只有公開的公式、開源的程式碼、以及在真實世界存活過的資料。

Working Draft·版本 3.5.11·更新於 16 June 2026·正式網址 /spec/spec·編輯 Adam Lin

閱讀 RFC-001 →npm install [email protected]

Live

Full ATR rule pack in Cisco AI Defense production

96,096

Real agent skills scanned across 6 registries (as of 2026-04-14)

99.7%

Precision on the PINT-format adversarial corpus

~0.24%

False-positive rate on the enforce lane (mature rules only)

規則來源組成

哪些規則是人工審核的，哪些是 LLM 生成的。

ATR 公開這個數字，因為任何下游採用者都應該在評估信任度時知道它。

人工審核

~30%

規則創始時由人工撰寫，或已通過人工 review 升級到 stable。這些規則的 metadata_provenance 標記為 human-reviewed。

LLM 生成 + 雙重閘門驗證

~65%

由 LLM 草擬，通過語法關 + RFC-001 品質關 + 0 FP benign corpus 驗證。標記為 llm-generated，信心分數上限 70，直到人工 review。

語料庫指紋（保留為實驗性）

~5%

非常字面的模式，從特定語料庫取出。泛化這些規則會帶來無法接受的 FP。保留為 experimental，不用於生產封鎖，明確標注。

LLM 生成的規則為什麼可以信任？因為雙重閘門設計讓來源和信任度是分開追蹤的。LLM 生成的規則可以通過 experimental gate 快速迭代；升級到 stable（企業在生產環境封鎖的層級）需要人工 review。採用者可以自己決定：只部署 human-reviewed 規則、只部署 stable、或者兩者都用。

規則集每天透過自動結晶飛輪擴張,新生成的規則大多先標記為 LLM 生成(雙重閘門驗證)。human-reviewed 的比例隨著人工 review 持續積累而上升——而這個比例本身,是公開的。

公式

信心分數是數字,不是意見

每個組成都由可測量的事實計算而來。公式是公開的 — 你可以自己跑。

confidence = 0.4 × precision + 0.3 × wild + 0.2 × coverage + 0.1 × evasion

Precision40%

(1 − wild_fp_rate) × 100

Measured false-positive rate on real-world corpora.

Wild validation30%

min(wild_samples / 10,000, 1) × 100

How much real data the rule has survived.

Coverage20%

min(conditions / 5, 1) × 100

Detection depth — distinct attack layers covered.

Evasion docs10%

min(documented_evasions / 5, 1) × 100

Honest acknowledgment of known bypass techniques.

90–100 · Very High

可在生產環境封鎖

60–79 · Medium

僅告警、持續監控

<40 · Draft

不得部署

核心差異

雙維度合規模型

將「規則有沒有必要 metadata」與「誰驗證的」分開處理。LLM 只在撰寫階段參與;偵測核心本身是 deterministic regex / AST 比對,執行時不呼叫 LLM。

維度 1 · 技術合規

規則有沒有必要的 metadata?偵測條件、test cases、OWASP + MITRE 對應、false positive 文件。機器可在毫秒內驗證。

validateRuleMeetsStandard(rule)

維度 2 · 信任合規

誰驗證了 metadata?human-reviewed、community-contributed、auto-generated 或 llm-generated。升級 stable 要求「已驗證來源」,不只是「有」。

metadata_provenance: { mitre_atlas: human-reviewed }

為什麼這件事重要

傳統的規則標準(Sigma、YARA、OWASP CRS)把合規視為二元 — 有就過、沒有就不過。這造成逆向誘因:廠商為了通過檢查而填入 metadata,但並未真正審核。

ATR 將這兩個維度分開。自動生成的對應可以通過 experimental gate 以便快速迭代。升級到 stable — 企業在生產環境會封鎖的層級 — 要求人工 review。快速迭代和誠實信任,同時存在。

成熟度階梯

每條規則都要靠證據往上爬一階

draft → experimental → test → stable → deprecated。每一階的晉升條件都是明確、機械化的——不是靠規則放著夠久,而是靠它累積的證據。品質退化時降級自動觸發,不需人工決策。

Draft

晉升門檻

Valid schema · ≥1 TP + 1 TN · no ReDoS

部署建議

Not deployed

Experimental

晉升門檻

3+ TP + 3+ TN · CI pass · OWASP + MITRE mapping encouraged (not required) · evasion tests encouraged (not required)

部署建議

Alert-only

Test

晉升門檻

Canary observation passed · wild FP measured · no unresolved false-positive reports in the canary window

部署建議

Alert-only, promotion candidate

Stable

晉升門檻

Wild-validated (1,000+ samples) · FP rate ≤ 0.5% · human-verified provenance · ≥3 evasion tests

部署建議

Block in production

Deprecated

晉升門檻

Superseded or demoted · retained for provenance · engines MUST NOT enable by default

部署建議

Off by default

自動降級

Stable 規則若野外 false positive rate 超過 2%,或 30 天內累積 3 次未解決的 FP 回報,會自動降級為 experimental。不需人工決策。系統自我修正。

偵測車道

成熟度決定一條規則被允許做什麼

階梯不只是個標籤,它驅動三條偵測車道。每條車道是「放行哪些成熟度」與「對誤報的容忍度」之間,一個明擺著的取捨——而每條車道的誤報率,都各自公開。

enforce 車道

~0.24%

誤報率 · 僅 stable + confirm

只放行最成熟、經人工確認的規則。精確度買來的代價是召回率下降——這是刻意的取捨,擺在明處,讓在生產環境封鎖的人自己選。

alert 車道

告警

stable + test · 不封鎖

納入晉升候選的 test 規則,只告警、不封鎖。在誤報傷不到使用者的前提下,擴大被看見的攻擊面。

hunt 車道（預設）

~9%

誤報率 · 全部規則,純建議性

把所有規則當作建議性訊號全開,給做威脅獵捕的人最大的可見度。約 9% 的誤報率不是被藏起來的瑕疵——它就印在這裡,因為這條車道從不自動封鎖任何東西。

品質即誠實

0.24% 與 9% 是同一套規則、兩條車道的真實數字。把它們並排印出來,而不是只報那個漂亮的,是這個標準對「品質」的定義:一個標準的可信度,取決於它願不願意公開自己最差的數字。採用者拿到的不是一個被擦亮的承諾,而是一張可以自己驗證的取捨表。

六道關卡

一條規則在抵達生產環境前要過六關

LLM 草擬的規則必須通過六個獨立的驗證階段才能保護使用者。每個階段都有機械化、公開的判斷條件。

階段 1

LLM Drafter

Claude Sonnet generates a YAML rule against a strict prompt requiring 3+ conditions, 5+ TP/TN, 3+ evasion tests, and OWASP + MITRE mapping.

階段 2

Syntax Gate

Regex extraction, invalid pattern rejection, PCRE-to-JS normalization. Broken rules are dropped with logged reasons.

階段 3

Quality Gate

The RFC-001 formula runs: detection depth, test coverage, reference mapping, documentation completeness. Below the bar — rejected.

階段 4

Canary Observation

Accepted rules enter a canary window. Independent confirmations and wild FP measurements gate further promotion.

階段 5

Human Review

Provenance starts as llm-generated. Human review upgrades to human-reviewed before the rule can reach stable.

階段 6

Upstream PR

Promoted rules open pull requests against the public ATR repository for open review and merge.

實際結晶輸出 · 通過品質關ATR-2026-DRAFT-8f3c9a72

Hidden Credential Exfiltration with Silent Execution Override

severity · critical

偵測層

5 + 5

TP + TN 測試

規避測試

100%

必要欄位完備

OWASP

✓LLM01:2025 — Prompt Injection

✓ASI01:2026 — Agent Behaviour Hijack

MITRE ATLAS

✓AML.T0051 — LLM Prompt Injection

來源

llm-generated

誠實標記為 LLM 生成。信心分數封頂 70,直到人工 review 升級為 human-reviewed。

同業比較

ATR 與既有規則標準的比較

Sigma、YARA、OWASP CRS、Suricata 解決了惡意軟體、SIEM、WAF、IDS 的這個問題。還沒有人替 AI agent 解決 — 直到現在。

功能	ATR	Sigma	YARA	OWASP CRS	Suricata
Maturity ladder with explicit gates	✓	✓	—	✓	✓
Formula-based confidence score (0–100)	✓	—	—	—	~
Wild validation required for production	✓	—	—	—	—
Per-field provenance tracking	✓	—	—	—	—
Automatic demotion on quality regression	✓	—	—	—	—
Open-source reference implementation	✓	✓	✓	✓	✓

ATR 是唯一要求野外掃描驗證、測量 FP rate 並在品質退化時自動降級的標準。

自己驗證

別相信我們,執行驗證器

每個 function 都是純函式、開源、有文件。你可以在一分鐘內對自己的規則(或我們的)計算分數。

安裝

npm install [email protected]

為任何規則計算分數

import {
  parseATRRule,
  computeConfidence,
  validateRuleMeetsStandard,
} from 'agent-threat-rules/quality';

const rule = parseATRRule(yamlContent);
const score = computeConfidence(rule);
const gate = validateRuleMeetsStandard(rule, 'stable');

console.log('Confidence:', score.total);    // 0-100
console.log('Passes stable:', gate.passed);
console.log('Issues:', gate.issues);

可測量。可審計。公開。

公式是公開的,車道的誤報率是公開的,連最差的那個數字也是公開的。任何符合規範的掃描器 — ATR、Cisco、Microsoft AGT 或你自己寫的 — 都能用同一個 library、在同一個維度上計分,並各自驗證。這就是一個開放標準該有的可信度。

閱讀 RFC →瀏覽規則

具備來源追溯的AI Agent 規則品質標準

哪些規則是人工審核的，哪些是 LLM 生成的。

信心分數是數字,不是意見

雙維度合規模型

每條規則都要靠證據往上爬一階

成熟度決定一條規則被允許做什麼

一條規則在抵達生產環境前要過六關

LLM Drafter

Syntax Gate

Quality Gate

Canary Observation

Human Review

Upstream PR

Hidden Credential Exfiltration with Silent Execution Override

ATR 與既有規則標準的比較

別相信我們,執行驗證器

可測量。可審計。公開。

具備
來源追溯的
AI Agent 規則品質標準