Policy-Invisible Violations 論文閱讀分析:Agent 不是被騙了,而是根本看不到那個讓動作變成違規的世界狀態

論文基本資訊

  • 論文標題:Policy-Invisible Violations in LLM-Based Agents
  • 作者:Jie Wu 等
  • 年份:2026
  • 來源:arXiv:2604.12177
  • 論文連結:https://arxiv.org/abs/2604.12177
  • DOI:10.48550/arXiv.2604.12177
  • 主題:Agentic Security、Policy Enforcement、World Models、Data Loss Prevention、Enterprise AI、Runtime Governance

這篇 paper 我很喜歡,因為它點破了一個很多團隊其實已經開始撞到、但還沒講清楚的問題:

Agent 明明沒有被 jailbreak、沒有被 prompt injection、工具呼叫也完全符合使用者要求,最後卻還是做出違反組織政策的事。

作者把這種失敗模式叫做 policy-invisible violations。意思不是模型故意作惡,也不是使用者在搞攻擊,而是做出正確 policy 判斷所需要的關鍵事實,根本不在 agent 當下看得到的上下文裡。所以從 agent 視角看,一切都很正常;從組織治理視角看,事情卻已經違規了。

如果前幾篇 prompt injection / wrapper / tool guardrail 論文都在問「當外部內容想操控 agent 時怎麼辦」,那這篇問的是另一個更陰、更真實的問題:當沒有人在攻擊你,但你的 agent 仍因為看不到 policy world state 而正常地做錯事時,怎麼辦?

這篇論文在解決什麼問題?

作者舉的例子非常到位:員工要 agent 把 onboarding folder 裡的檔案全部分享給新同事 David Liu。Agent 去列檔、看到幾個看起來都很普通的檔名,照要求全分享了。問題是其中有一份檔其實是 HR 暫放進去的人力規劃文件,只允許 HR 和管理層看。

注意這裡沒有任何典型攻擊特徵:

  • 使用者是善意的,不是 adversary
  • 指令語意合理、目標合理、工具參數也合理
  • 檔名表面沒有寫著「CONFIDENTIAL」或「HR_ONLY」
  • agent 不是亂猜,它只是缺少政策判斷所需的隱性狀態

這就是這篇 paper 真正要打的點:很多企業政策不是靠字面內容判斷,而是靠實體屬性、關係圖、session 累積狀態與組織上下文判斷。 而這些東西通常散落在 identity system、metadata store、permission graph、歷史互動紀錄裡,不會自動出現在每次 prompt 或 tool response 裡。

也就是說,這不是一個「模型再聰明一點就好」的問題,而是一個policy-relevant world state 沒有被接進 enforcement layer 的系統問題。

這篇最關鍵的觀點:很多違規不是惡意,也不是愚蠢,而是「看不見」

我認為這篇論文最重要的貢獻,不只是提了一個 benchmark,而是把一整類 agent failure 正式命名了。因為過去很多討論會把這種案例混在一起:

  • 有人會說這是 authorization 做不好
  • 有人會說這是 DLP 沒擋住
  • 有人會說這是模型 alignment 不夠
  • 有人會說那就在 prompt 裡多寫幾條安全規則

但作者說得很清楚:如果 decisive policy facts 根本不在模型可見上下文裡,那 agent 就算再乖、再照規則、再努力理解指令,也不會穩定做對。

這種 failure 的麻煩之處在於,它和 prompt injection 那種「有髒東西混進來」完全不同。這裡甚至可能沒有任何髒東西。工具回傳的都是乾淨 business data,問題只是:

  • 收件人是不是 inactive external lawyer?
  • 這份文件的 audience 是不是 HR_ONLY?
  • 這個 session 前幾步讀過的內容,合併後會不會變成跨 scope 洩漏?
  • 使用者雖然有權叫 agent 動作,但這個具體 data flow 是不是仍違規?

換句話說,agent 在 local context 中看起來沒問題,不代表它在 organizational context 中沒問題。

PhantomPolicy:這個 benchmark 很有意思,因為它故意把 policy metadata 全拿掉

論文提出的 benchmark 叫 PhantomPolicy。它的設計哲學很乾脆:如果你想知道 agent 到底能不能處理 policy-invisible violations,就不能偷偷把答案寫在內容表面。

所以作者刻意讓工具回傳內容都只包含乾淨的 business data,不給明顯 policy 提示:

  • 檔名不會直接標「confidential」
  • 聯絡人資料不會直接帶出 restricted / inactive 狀態
  • 路徑結構不會用 /hr/ 這種明牌提示敏感性

這很重要。因為很多看似安全的 baseline,其實只是吃到了資料裡洩漏出來的語意提示。如果 benchmark 先把 policy metadata 洩漏給模型,那你測到的就不是 policy-grounded reasoning,而只是 pattern matching。

PhantomPolicy 的核心設計包括:

  • 8 類 violation categories
  • 60 個 violation cases + 60 個 safe-control cases
  • 5 個 frontier models
  • 總計 600 條 model traces
  • 全部 traces 都做人工審閱

我特別喜歡作者沒有只用 case-level 標註,而是真的去看 trace。因為 agent 系統的錯誤常常不是 final answer 對不對而已,而是中途哪一步開始偏掉、哪一步其實本來該 clarify 卻沒 clarify。論文裡提到,人工 trace review 把原始 case-level annotations 改了 32 個 label,約 5.3%,這也再次提醒:看 final output 不夠,agent 評測很多時候必須看 execution trace。

最值得注意的實驗結論:模型幾乎穩定地做錯

作者在 paper 裡評估五個當代模型,結論其實不太客氣:當 policy 所需世界狀態不在上下文裡時,這些 agent 不是偶爾失手,而是系統性不可靠

論文提到,在 60 個高風險 violation cases 裡,各模型出現 54–59 個 policy-violating executions,也就是大約 90%–98% 的違規執行率;同時在 safe cases 也還有 2–8 / 60 的錯誤,代表不是只會放過危險案例,也會對合法案例拿捏失準。

這組結果非常有啟發性。它代表問題不是單純「模型太鬆」或「模型太保守」,而是:

  • 看不到關鍵世界狀態時,它對 risky case 沒法穩定擋住
  • 同時它對 safe case 也沒法穩定放行
  • 最後整體行為會變成一種既不安全、也不精準的混亂狀態

這就是很多企業 agent 最麻煩的地方:不是它永遠太敢,也不是它永遠太膽小,而是它根本沒有足夠事實做出一致 policy judgment。

Sentinel:不是再加一層 prompt,而是把動作當成「世界狀態變更提案」來驗

論文後半提出的 enforcement framework 叫 Sentinel,這部分我覺得很值得看。它的核心不是再疊一個 semantic reviewer,而是把每次 agent action 視為一個對組織 knowledge graph 的擬議變更

  1. 先把 outbound tool call 轉成對圖的 mutation proposal
  2. fork 一份世界狀態圖做 speculative execution
  3. 套用這次 action 之後,模擬 post-action world state
  4. 再檢查 graph invariants 有沒有被破壞
  5. 最後輸出 Allow / Block / Clarify

這個想法其實很強,因為它把 enforcement 問題從「看語意像不像違規」轉成「如果這個動作真的發生,世界狀態會不會進入違規狀態」。

也就是說,它不再只審輸入內容,而是審這個 action 對組織狀態圖會造成什麼後果。

這裡最有價值的,不只是 graph 這個資料結構本身,而是 counterfactual simulation 這個 enforcement 思維:你不是等違規發生後再看 log,而是在 action 落地前先問,「如果我讓這步真的執行,接下來的 world state 合不合法?」

結果怎麼樣?world-state-grounded enforcement 明顯比 content-only DLP 強

論文拿 Sentinel 跟 content-only DLP baseline 比,結果很清楚:

  • DLP baseline accuracy:68.8%
  • Sentinel accuracy:93.0%
  • Sentinel F1:92.71

這組數字背後真正值得記的,不只是「作者的方法比較強」,而是:

一旦 policy-relevant world state 被接到 enforcement layer,原本看起來很難的 agent policy problem,就 suddenly 變得可驗證、可模擬、可系統化處理。

這也剛好反駁一個很常見的迷思:很多人以為企業 agent 只要再加更強的 DLP 關鍵字規則、再加更聰明的 judge model、再補更多 policy prompt,就能慢慢補齊治理缺口。但這篇 paper 告訴你,如果 policy 判斷真正依賴的是隱性世界狀態,那 content-only 防線天然就只會看到表面。

這篇論文真正把 debate 往前推了一步

最近很多 agentic security 論文都在講 prompt injection、tool misuse、supply-chain poisoning、runtime monitor、wrapper impossibility。這些都重要,但這篇 paper 補的是另一塊很容易被忽略的現實:

  • 不是所有高風險行為都來自 adversarial input
  • 不是所有錯誤都能歸因到模型 alignment 不足
  • 不是所有治理問題都能靠更好的 prompt policy 解決

很多時候,agent 是照著善意使用者的合理要求做事,只是它不知道那些要求在這個具體組織狀態下其實會形成 policy violation。 這種 case 比 prompt injection 更難處理,因為它沒有明顯的 attack surface,也沒有一段可疑 payload 可以抓。它本質上是 world-state visibility problem。

所以我會說,這篇論文的重要性在於它把 discussion 從「怎麼讓 agent 更會拒絕」推進到「怎麼讓 enforcement layer 真正接觸 policy 所需的世界狀態」。這是比較硬、但也比較真實的方向。

它的限制也很明確

當然,這篇 paper 不是說只要上 knowledge graph 就天下太平。它有幾個現實前提:

  • 你得先有足夠完整、足夠新鮮的 organizational world model
  • entity、document、group、scope、history 之間的關係要維護得夠好
  • policy 邏輯要能被表達成 invariants,而不是全靠模糊例外
  • 真實企業環境裡還會有 metadata drift、同步延遲、資料品質問題

所以比較合理的理解方式是:Sentinel 不是萬能答案,而是一個很清楚的示範,證明 world-state-grounded enforcement 值得做,而且一做就會比只看內容的防線強很多。

換句話說,它不是告訴你「policy 問題已解決」,而是告訴你「真正該把工程力花在哪裡」。

重點整理

  • Policy-invisible violations 指的是:agent 的動作語法正確、語意合理、也符合使用者要求,但因為缺少 policy 所需世界狀態,最終仍違反組織政策。
  • 這類失敗模式不是 jailbreak、不是 prompt injection、也不只是單純 authorization 問題,而是 policy-relevant context 不可見 的系統問題。
  • 論文提出 PhantomPolicy benchmark,橫跨 8 類 violation categories,包含 60 個 violation cases 與 60 個 safe-control cases。
  • 作者對 5 個 frontier models 產生的 600 條 traces 全部做人工審閱;trace-level review 修正了 32 個原始標註,顯示 agent 評測不能只看 case-level output。
  • 在高風險案例中,各模型出現 90%–98% 的違規執行率,顯示當關鍵 policy state 不可見時,模型行為會系統性不可靠。
  • 論文提出 Sentinel:把每次 action 視為對 organizational knowledge graph 的 mutation proposal,透過 counterfactual graph simulation 在執行前驗證 post-action world state 是否違規。
  • 相較 content-only DLP baseline 的 68.8% accuracy,Sentinel 達到 93.0% accuracy 與 92.71 F1,顯示 world-state-grounded enforcement 明顯更有效。
  • 這篇 paper 最核心的啟示是:很多企業 agent 的治理瓶頸,不是模型不夠聰明,而是 enforcement layer 根本沒有看到做正確 policy judgment 所需的世界狀態。

Takeaway

如果要我用一句話總結這篇 paper,我會這樣寫:

很多最危險的 agent 違規,不是因為它被騙了,而是因為它根本沒看見那個讓動作變成違規的世界狀態。

Policy-Invisible Violations in LLM-Based Agents 值得看的地方,不只是提出一個新 benchmark,而是把 agent policy enforcement 的重心,從內容表面往world-state visibility、counterfactual execution 與 graph-grounded governance 推了一步。對真的想把 agent 放進企業流程的人來說,這一步比再補幾條 prompt policy 現實得多。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like