Policy-Invisible Violations 論文閱讀分析：Agent 不是被騙了，而是根本看不到那個讓動作變成違規的世界狀態

2026 年 4 月 18 日

論文基本資訊

論文標題：Policy-Invisible Violations in LLM-Based Agents
作者：Jie Wu 等
年份：2026
來源：arXiv:2604.12177
論文連結：https://arxiv.org/abs/2604.12177
DOI：10.48550/arXiv.2604.12177
主題：Agentic Security、Policy Enforcement、World Models、Data Loss Prevention、Enterprise AI、Runtime Governance

這篇 paper 我很喜歡，因為它點破了一個很多團隊其實已經開始撞到、但還沒講清楚的問題：

Agent 明明沒有被 jailbreak、沒有被 prompt injection、工具呼叫也完全符合使用者要求，最後卻還是做出違反組織政策的事。

作者把這種失敗模式叫做 policy-invisible violations。意思不是模型故意作惡，也不是使用者在搞攻擊，而是做出正確 policy 判斷所需要的關鍵事實，根本不在 agent 當下看得到的上下文裡。所以從 agent 視角看，一切都很正常；從組織治理視角看，事情卻已經違規了。

如果前幾篇 prompt injection / wrapper / tool guardrail 論文都在問「當外部內容想操控 agent 時怎麼辦」，那這篇問的是另一個更陰、更真實的問題：當沒有人在攻擊你，但你的 agent 仍因為看不到 policy world state 而正常地做錯事時，怎麼辦？

這篇論文在解決什麼問題？

作者舉的例子非常到位：員工要 agent 把 onboarding folder 裡的檔案全部分享給新同事 David Liu。Agent 去列檔、看到幾個看起來都很普通的檔名，照要求全分享了。問題是其中有一份檔其實是 HR 暫放進去的人力規劃文件，只允許 HR 和管理層看。

注意這裡沒有任何典型攻擊特徵：

使用者是善意的，不是 adversary
指令語意合理、目標合理、工具參數也合理
檔名表面沒有寫著「CONFIDENTIAL」或「HR_ONLY」
agent 不是亂猜，它只是缺少政策判斷所需的隱性狀態

這就是這篇 paper 真正要打的點：很多企業政策不是靠字面內容判斷，而是靠實體屬性、關係圖、session 累積狀態與組織上下文判斷。 而這些東西通常散落在 identity system、metadata store、permission graph、歷史互動紀錄裡，不會自動出現在每次 prompt 或 tool response 裡。

也就是說，這不是一個「模型再聰明一點就好」的問題，而是一個policy-relevant world state 沒有被接進 enforcement layer 的系統問題。

這篇最關鍵的觀點：很多違規不是惡意，也不是愚蠢，而是「看不見」

我認為這篇論文最重要的貢獻，不只是提了一個 benchmark，而是把一整類 agent failure 正式命名了。因為過去很多討論會把這種案例混在一起：

有人會說這是 authorization 做不好
有人會說這是 DLP 沒擋住
有人會說這是模型 alignment 不夠
有人會說那就在 prompt 裡多寫幾條安全規則

但作者說得很清楚：如果 decisive policy facts 根本不在模型可見上下文裡，那 agent 就算再乖、再照規則、再努力理解指令，也不會穩定做對。

這種 failure 的麻煩之處在於，它和 prompt injection 那種「有髒東西混進來」完全不同。這裡甚至可能沒有任何髒東西。工具回傳的都是乾淨 business data，問題只是：

收件人是不是 inactive external lawyer？
這份文件的 audience 是不是 HR_ONLY？
這個 session 前幾步讀過的內容，合併後會不會變成跨 scope 洩漏？
使用者雖然有權叫 agent 動作，但這個具體 data flow 是不是仍違規？

換句話說，agent 在 local context 中看起來沒問題，不代表它在 organizational context 中沒問題。

PhantomPolicy：這個 benchmark 很有意思，因為它故意把 policy metadata 全拿掉

論文提出的 benchmark 叫 PhantomPolicy。它的設計哲學很乾脆：如果你想知道 agent 到底能不能處理 policy-invisible violations，就不能偷偷把答案寫在內容表面。

所以作者刻意讓工具回傳內容都只包含乾淨的 business data，不給明顯 policy 提示：

檔名不會直接標「confidential」
聯絡人資料不會直接帶出 restricted / inactive 狀態
路徑結構不會用 /hr/ 這種明牌提示敏感性

這很重要。因為很多看似安全的 baseline，其實只是吃到了資料裡洩漏出來的語意提示。如果 benchmark 先把 policy metadata 洩漏給模型，那你測到的就不是 policy-grounded reasoning，而只是 pattern matching。

PhantomPolicy 的核心設計包括：

8 類 violation categories
60 個 violation cases + 60 個 safe-control cases
5 個 frontier models
總計 600 條 model traces
全部 traces 都做人工審閱

我特別喜歡作者沒有只用 case-level 標註，而是真的去看 trace。因為 agent 系統的錯誤常常不是 final answer 對不對而已，而是中途哪一步開始偏掉、哪一步其實本來該 clarify 卻沒 clarify。論文裡提到，人工 trace review 把原始 case-level annotations 改了 32 個 label，約 5.3%，這也再次提醒：看 final output 不夠，agent 評測很多時候必須看 execution trace。

最值得注意的實驗結論：模型幾乎穩定地做錯

作者在 paper 裡評估五個當代模型，結論其實不太客氣：當 policy 所需世界狀態不在上下文裡時，這些 agent 不是偶爾失手，而是系統性不可靠。

論文提到，在 60 個高風險 violation cases 裡，各模型出現 54–59 個 policy-violating executions，也就是大約 90%–98% 的違規執行率；同時在 safe cases 也還有 2–8 / 60 的錯誤，代表不是只會放過危險案例，也會對合法案例拿捏失準。

這組結果非常有啟發性。它代表問題不是單純「模型太鬆」或「模型太保守」，而是：

看不到關鍵世界狀態時，它對 risky case 沒法穩定擋住
同時它對 safe case 也沒法穩定放行
最後整體行為會變成一種既不安全、也不精準的混亂狀態

這就是很多企業 agent 最麻煩的地方：不是它永遠太敢，也不是它永遠太膽小，而是它根本沒有足夠事實做出一致 policy judgment。

Sentinel：不是再加一層 prompt，而是把動作當成「世界狀態變更提案」來驗

論文後半提出的 enforcement framework 叫 Sentinel，這部分我覺得很值得看。它的核心不是再疊一個 semantic reviewer，而是把每次 agent action 視為一個對組織 knowledge graph 的擬議變更：

先把 outbound tool call 轉成對圖的 mutation proposal
fork 一份世界狀態圖做 speculative execution
套用這次 action 之後，模擬 post-action world state
再檢查 graph invariants 有沒有被破壞
最後輸出 Allow / Block / Clarify

這個想法其實很強，因為它把 enforcement 問題從「看語意像不像違規」轉成「如果這個動作真的發生，世界狀態會不會進入違規狀態」。

也就是說，它不再只審輸入內容，而是審這個 action 對組織狀態圖會造成什麼後果。

這裡最有價值的，不只是 graph 這個資料結構本身，而是 counterfactual simulation 這個 enforcement 思維：你不是等違規發生後再看 log，而是在 action 落地前先問，「如果我讓這步真的執行，接下來的 world state 合不合法？」

結果怎麼樣？world-state-grounded enforcement 明顯比 content-only DLP 強

論文拿 Sentinel 跟 content-only DLP baseline 比，結果很清楚：

DLP baseline accuracy：68.8%
Sentinel accuracy：93.0%
Sentinel F1：92.71

這組數字背後真正值得記的，不只是「作者的方法比較強」，而是：

一旦 policy-relevant world state 被接到 enforcement layer，原本看起來很難的 agent policy problem，就 suddenly 變得可驗證、可模擬、可系統化處理。

這也剛好反駁一個很常見的迷思：很多人以為企業 agent 只要再加更強的 DLP 關鍵字規則、再加更聰明的 judge model、再補更多 policy prompt，就能慢慢補齊治理缺口。但這篇 paper 告訴你，如果 policy 判斷真正依賴的是隱性世界狀態，那 content-only 防線天然就只會看到表面。

這篇論文真正把 debate 往前推了一步

最近很多 agentic security 論文都在講 prompt injection、tool misuse、supply-chain poisoning、runtime monitor、wrapper impossibility。這些都重要，但這篇 paper 補的是另一塊很容易被忽略的現實：

不是所有高風險行為都來自 adversarial input
不是所有錯誤都能歸因到模型 alignment 不足
不是所有治理問題都能靠更好的 prompt policy 解決

很多時候，agent 是照著善意使用者的合理要求做事，只是它不知道那些要求在這個具體組織狀態下其實會形成 policy violation。 這種 case 比 prompt injection 更難處理，因為它沒有明顯的 attack surface，也沒有一段可疑 payload 可以抓。它本質上是 world-state visibility problem。

所以我會說，這篇論文的重要性在於它把 discussion 從「怎麼讓 agent 更會拒絕」推進到「怎麼讓 enforcement layer 真正接觸 policy 所需的世界狀態」。這是比較硬、但也比較真實的方向。

它的限制也很明確

當然，這篇 paper 不是說只要上 knowledge graph 就天下太平。它有幾個現實前提：

你得先有足夠完整、足夠新鮮的 organizational world model
entity、document、group、scope、history 之間的關係要維護得夠好
policy 邏輯要能被表達成 invariants，而不是全靠模糊例外
真實企業環境裡還會有 metadata drift、同步延遲、資料品質問題

所以比較合理的理解方式是：Sentinel 不是萬能答案，而是一個很清楚的示範，證明 world-state-grounded enforcement 值得做，而且一做就會比只看內容的防線強很多。

換句話說，它不是告訴你「policy 問題已解決」，而是告訴你「真正該把工程力花在哪裡」。

重點整理

Policy-invisible violations 指的是：agent 的動作語法正確、語意合理、也符合使用者要求，但因為缺少 policy 所需世界狀態，最終仍違反組織政策。
這類失敗模式不是 jailbreak、不是 prompt injection、也不只是單純 authorization 問題，而是 policy-relevant context 不可見 的系統問題。
論文提出 PhantomPolicy benchmark，橫跨 8 類 violation categories，包含 60 個 violation cases 與 60 個 safe-control cases。
作者對 5 個 frontier models 產生的 600 條 traces 全部做人工審閱；trace-level review 修正了 32 個原始標註，顯示 agent 評測不能只看 case-level output。
在高風險案例中，各模型出現 90%–98% 的違規執行率，顯示當關鍵 policy state 不可見時，模型行為會系統性不可靠。
論文提出 Sentinel：把每次 action 視為對 organizational knowledge graph 的 mutation proposal，透過 counterfactual graph simulation 在執行前驗證 post-action world state 是否違規。
相較 content-only DLP baseline 的 68.8% accuracy，Sentinel 達到 93.0% accuracy 與 92.71 F1，顯示 world-state-grounded enforcement 明顯更有效。
這篇 paper 最核心的啟示是：很多企業 agent 的治理瓶頸，不是模型不夠聰明，而是 enforcement layer 根本沒有看到做正確 policy judgment 所需的世界狀態。

Takeaway

如果要我用一句話總結這篇 paper，我會這樣寫：

很多最危險的 agent 違規，不是因為它被騙了，而是因為它根本沒看見那個讓動作變成違規的世界狀態。

Policy-Invisible Violations in LLM-Based Agents 值得看的地方，不只是提出一個新 benchmark，而是把 agent policy enforcement 的重心，從內容表面往world-state visibility、counterfactual execution 與 graph-grounded governance 推了一步。對真的想把 agent 放進企業流程的人來說，這一步比再補幾條 prompt policy 現實得多。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保內容的完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

Policy-Invisible Violations 論文閱讀分析：Agent 不是被騙了，而是根本看不到那個讓動作變成違規的世界狀態

論文基本資訊

這篇論文在解決什麼問題？

這篇最關鍵的觀點：很多違規不是惡意，也不是愚蠢，而是「看不見」

PhantomPolicy：這個 benchmark 很有意思，因為它故意把 policy metadata 全拿掉

最值得注意的實驗結論：模型幾乎穩定地做錯

Sentinel：不是再加一層 prompt，而是把動作當成「世界狀態變更提案」來驗

結果怎麼樣？world-state-grounded enforcement 明顯比 content-only DLP 強

這篇論文真正把 debate 往前推了一步

它的限制也很明確

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解決什麼問題？

這篇最關鍵的觀點：很多違規不是惡意，也不是愚蠢，而是「看不見」

PhantomPolicy：這個 benchmark 很有意思，因為它故意把 policy metadata 全拿掉

最值得注意的實驗結論：模型幾乎穩定地做錯

Sentinel：不是再加一層 prompt，而是把動作當成「世界狀態變更提案」來驗

結果怎麼樣？world-state-grounded enforcement 明顯比 content-only DLP 強

這篇論文真正把 debate 往前推了一步

它的限制也很明確

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

AI-Driven Multi-Agent Cyber Range 論文閱讀分析：當資安 Agent 真正要上場前，先問你的演練場到底夠不夠真

DP-FLogTinyLLM 論文閱讀分析：很多 log AI 真正缺的，不是再多吃一點資料，而是資料不能集中時整套偵測還能不能活

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆