The math says static guardrails lose — ATR

2026 年 6 月 9 日,一位 NIST 資深科學家發表了一份數學證明:沒有任何有限的 guardrail 集合,能普遍抵禦對抗式 prompt。論證借用哥德爾——任何固定的防禦,都留有一個攻擊者找得到的縫。

結論不是「把牆蓋得更高」,而是停止把 AI 安全當成「一次到位」,改成 持續監測與更新:不斷找出新攻擊、不斷更新防禦, 把攻擊成本推過「不划算」那條線。

對任何在防守 AI agent 的人,這份證明替整個策略劃了底線:一個你發布一次就不再管的靜態規則集,可以被證明,是一個有縫的規則集。

這個方向,業界已經在走

你不必只聽標準機構說。2026 年 6 月 16 日,NVIDIA 發布了 SkillSpector——一個開源掃描器,在 agent skill 安裝前檢查其中的惡意模式。當全球最大的 AI 硬體公司都做起安裝前 skill 掃描,這個品類就不再是空想。

所以剩下的問題不再是「要不要持續掃描 agent 行為」,而是兩個更窄的問題:你用什麼規則掃,以及新攻擊出現時這些規則多快更新。

持續更新的規則層長什麼樣

Agent Threat Rules(ATR)就是為這個問題而生的開放標準:可執行的偵測規則——YAML 與 JSON,不是 checklist——在 agent 攻擊發生時觸發。目前 652 條規則,對映 OWASP Agentic 與 LLM Top 10、MITRE ATLAS、NIST AI RMF、ISO 42001 與 EU AI Act,所以一個偵測可以追回到團隊本來就在用的合規框架。

真正關鍵的是更新迴圈。新的攻擊 payload 進來,一條規則被起草、對乾淨語料做 0 誤報機審、然後上線。社群貢獻加上自動審核,把規則更新週期從委員會的數週,壓縮到一小時內。攻擊跑得快,防禦就得至少一樣快——這正是靜態 guardrail 做不到、而 NIST 證明說你不能跳過的事。

這些規則扎根於真實世界,不是假設。我們掃了五個公開 registry 的 96,096 個 agent skill,人工複審後確認 552 個惡意——憑證竊取、靜默外洩、藏在工具描述裡的命令執行。在 PINT 語料上 ATR 的 recall 是 63.6%、precision 99.7%:抓得到真攻擊,又幾乎不亂叫, 這是讓一個持續規則層「能用」而不是「太吵」的關鍵。

結論

能規模化的防禦,是更新得跟攻擊一樣快的那種。現在這件事有了形式化證明,而且這個品類裡已經有 NVIDIA。ATR 就是它的開放、MIT 授權規則層——免費採用、對映框架、持續更新。

下一篇,我們拿它對本週這批 MCP CVE 做實測。

數學證明:靜態防護必輸

這個方向,業界已經在走

持續更新的規則層長什麼樣

結論

來源