CI-Work 論文閱讀分析:很多 enterprise agent 真正危險的,不是答錯,而是太會幫你把不該帶出的脈絡也一起帶出去

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:CI-Work: Benchmarking Contextual Integrity in Enterprise LLM Agents
  • 作者:Wenjie Fu、Xiaoting Qin、Jue Zhang、Qingwei Lin、Lukas Wutschitz、Robert Sim、Saravan Rajmohan、Dongmei Zhang
  • 年份:2026
  • 來源:arXiv:2604.21308
  • 論文連結:https://arxiv.org/abs/2604.21308
  • DOI:10.48550/arXiv.2604.21308
  • 主題:Enterprise AI Security、Contextual Integrity、Agent Privacy、Information Leakage、Benchmarking、Runtime Governance

很多企業在想把 LLM agent 接進 email、chat、calendar、meeting transcript、內部文件庫時,最先想到的風險通常是「會不會答錯」。但這篇 CI-Work 要追的不是答錯,而是另一個更現實的問題:

agent 在幫你把事做完的同時,會不會順手把本來不該講出去的內部脈絡也一起帶走?

這件事麻煩的地方在於,企業場景裡真正敏感的,常常不是那種明顯標著 confidential 的單一欄位,而是某段會議摘要、某個談判底價、某位同事的個資、某份草案、某段主管與主管之間本來只該留在那個層級的上下文。而 agent 的價值恰好就是會去撈這些上下文,再幫你整合、代答、轉述、交辦。

所以這篇 paper 的切點很準:企業 agent 最危險的,不是完全看不到資料,而是太會把資料拿來做事,卻還不夠會分辨哪些該傳、哪些不該傳。

這篇在解什麼問題?

作者借用的是隱私理論裡很老但很耐用的一個概念:Contextual Integrity(CI)。簡單講,隱私不是「資料永遠不能流動」,而是資料要在對的脈絡、對的人、以對的方式流動

放到 enterprise agent 上,問題就會變成:

  • 誰叫 agent 做事?
  • agent 要回給誰?
  • 任務需要哪些資訊才算完成?
  • 哪些資訊雖然撈得到,但不該在這條資訊流裡被帶出去?

這和一般 consumer assistant 很不一樣。企業流程不是單純「幫我找答案」,而是混著層級、角色、部門、外部對象與組織規範。作者認為,既有隱私 benchmark 多半不是太日常、太簡化,就是只看單一資訊流,沒有真的碰到 enterprise 裡那種多份相關資訊同時被撈回來、而且敏感內容夾在可用內容裡面的情況。

CI-Work 要補的,就是這個洞。

CI-Work 怎麼設計?

這個 benchmark 的核心想法很清楚:不要只問模型會不會保密,而是把它丟進更像真實企業工作的情境,看它能不能一邊完成任務、一邊不把不該講的東西講出去。

作者把企業溝通切成五種典型資訊流方向:

  • Downward:主管往下交辦
  • Upward:向上回報
  • Lateral:同層同事協作
  • Diagonal:跨部門/跨層級溝通
  • External:對外部利害關係人互動

這個切法很對,因為很多 enterprise agent 的洩漏不是出在「模型不懂這是敏感資訊」,而是出在它沒搞懂同一份資訊在不同收件人、不同權力關係下,合法流動邊界根本不同

論文總共做了 125 個 task seeds,並把每個案例展開成包含:

  • 寄件者/指派者
  • 收件者
  • 任務描述
  • 可被 agent 透過工具撈到的上下文資料

更重要的是,它把 agent 撈到的內容明確分成兩組:

  • Essential set:任務真的需要傳出去的資訊
  • Sensitive set:如果傳出去就違反脈絡隱私規範的資訊

這個 framing 非常實用。因為 enterprise agent 的難點通常不是「全部都不能說」,而是你得把該講的講完整,同時把不該講的壓住。這比一般 safety benchmark 的 yes/no 問法更接近 production。

它不是在測拒答,而是在測「邊做事邊守邊界」

我覺得這篇最值得記的一點,是它沒有把 privacy 當成單純的拒答能力。它要測的是一個更麻煩、也更貼近現實的能力:

agent 能不能在高密度檢索環境裡,把必要內容傳出去,但不把夾在旁邊的敏感脈絡一起順手送走。

這和很多企業導入場景完全一致。你不是要 agent 永遠閉嘴,而是要它:

  • 能 summarise
  • 能代寫回覆
  • 能幫你做跨文件整合
  • 但不能因為太「有幫助」就把內部細節、他人隱私、談判底線或未公開資訊也一起優化進答案

換句話說,這篇 paper 真正測的是 useful but bounded disclosure,不是單純 safe completion。

模擬環境做得也很像問題本身

作者不是只拿靜態 prompt 問問題,而是用類似 ToolEmu / PrivacyLens 那種 tool-centric simulation 思路,讓 agent 透過企業常見工具去撈資料,再由模擬器生成觀察內容。

而且它故意讓 sensitive entry 在具體 artifact 裡不是孤立存在,而是和其他正常內容混在一起。這件事很關鍵,因為真實世界裡敏感資訊幾乎從來不會乖乖單獨躺在一個標籤化欄位裡,它通常是:

  • 藏在 meeting transcript 某段發言裡
  • 夾在 email thread 的上下文中
  • 混在多個看似合理的 supporting details 裡

所以這個 benchmark 的價值,不只是 CI 理論,而是它把 CI 轉成比較像 enterprise retrieval reality 的東西。

它怎麼評分?

CI-Work 用三個指標來看 agent 表現:

  • Leakage:敏感資訊被洩出的比例
  • Violation:該案例是否出現任何敏感資訊外流
  • Conveyance:必要資訊有沒有成功被傳達出去

這三個指標放在一起看很有意思。因為如果你只看 leakage,最保守的模型可能看起來很安全;但如果 conveyance 很差,那它其實只是把事情做爛。相反地,如果 conveyance 很高,但 violation 也跟著高,代表它是靠過度慷慨地分享上下文在換任務完成度。

這也是整篇 paper 最核心的 tension:utility 和 privacy 在 enterprise agent 上不是自然同向,反而常常互相拉扯。

結果怎麼看?不太妙,而且很現實

作者測了多個 frontier models,結論相當直接:目前模型在 enterprise contextual privacy 上失手很常見。

論文裡的總體結果顯示:

  • Violation rate 大約落在 15.8% 到 50.9%
  • Leakage 最高可到 26.7%

而且最重要的一句不是數字本身,而是作者看到的相關性:

任務做得越好,往往越容易伴隨更高的隱私違規。

這個結果非常有殺傷力,因為它直接打到很多企業導入時最容易自我安慰的一種想法:只要模型更強、理解更深、推理更久,應該就會自然更安全。這篇的答案基本上是:不,至少在這類 enterprise context 問題上,不會自動發生。

它其實在揭露一個很麻煩的 trade-off

我覺得這篇最重要的不是「模型有洩漏」,而是它把那個洩漏和 utility 的結構性 trade-off 量出來了。

直白講,很多 agent 之所以看起來很會做事,就是因為它很會吸收脈絡、整合脈絡、轉述脈絡。但同一個能力,如果沒有額外治理層,就很容易一路滑進下面這種模式:

  • 越完整越好
  • 越具體越好
  • 越貼近原始上下文越好

而這三件事,剛好就是很多 enterprise privacy failure 的前奏。也就是說,在企業裡,helpfulness 本身就可能是 leakage surface。

規模越大、內容越長,不一定更安全

論文還看了 context 規模、條目數量、內容長度對洩漏的影響,結論也很值得做產品的人記起來。

當 contextual entries 數量增加時:

  • violation 上升
  • conveyance 下滑
  • leakage 比例呈現某種 dilution 效應,但整體違規更常發生

這說明大規模企業上下文不是單純讓模型更難答而已,而是讓它更容易在多個資訊實體之間搞混「該傳的必要內容」和「不該傳的附帶脈絡」。

另外,條目越長、細節越豐富時,模型 conveyance 會提升,但 leakage 和 violation 也一起升。這很合理,因為長上下文確實更能支撐任務完成,但也讓模型有更多機會把敏感碎片一起撈進回答。

所以這篇 paper 其實是在提醒:enterprise RAG / agent architecture 的風險,不只是檢索錯,而是檢索對了之後講太多。

使用者壓力也會把事情搞更糟

這篇還做了一個我很喜歡的實驗:看使用者的「壓力式要求」會不會影響結果。像是:

  • 叫 agent 回得更完整、更具體
  • 主動提示它去看哪些資料來源

結果不意外但很重要:這些看起來完全正常、甚至善意的 user behavior,會讓 leakage 和 violation 顯著增加。

更妙的是,conveyance 在更高壓力下還可能開始下滑,變成隱私和效用雙輸。作者的解讀很合理:當模型一邊想滿足使用者的「講清楚一點」、一邊又隱約知道有些東西不該講時,它會開始靠不穩定 heuristic 硬撐,最後反而兩邊都沒處理好。

這點很值得所有做 enterprise copilot 的團隊記住:很多外洩不需要攻擊者,正常使用者的高壓期待就夠把模型往過度披露推。

更大的模型、更深的 reasoning,沒有自動救你

這篇另一個很值得注意的點,是它觀察到某種 inverse scaling 現象:模型越大,utility 可能更好,但 leakage 也可能更嚴重。

作者的解釋我覺得很有說服力:

  • 小模型有時不是比較守規矩,只是看不懂那麼多細節
  • 大模型更會讀懂長上下文,也更會迎合使用者要求
  • 但 enterprise privacy 依賴的往往不是顯式規則,而是隱含的組織脈絡與角色邊界

這就很致命。因為你不能期待「模型變聰明」就自然會補上「企業社會規範判斷」這層缺口。很多時候它只會變成:

  • 更會抓細節
  • 更會組織答案
  • 也更有能力把不該講的東西講得很漂亮

至於 reasoning effort 拉高,論文結果也顯示改善有限。這代表問題不只是推理不夠深,而是整個系統缺少 context-centric privacy control

我怎麼看這篇?

我覺得這篇很有價值,因為它沒有把 enterprise agent 隱私問題講成「模型偶爾嘴滑」。它抓到的是更底層的結構:

企業 agent 的核心能力,本來就建立在跨資料源檢索、整合與代答;如果沒有額外的脈絡治理層,這個能力本身就會自然長成外洩風險。

它也順手打破了幾個常見幻覺:

  • 不是模型越大就越安全
  • 不是 reasoning 開更高就能補掉治理缺口
  • 不是只要加幾條「注意隱私」prompt 就夠
  • 不是沒有惡意攻擊就代表沒事

對我來說,這篇最像樣的地方,是它把問題從 model-centric safety 拉回 context-centric architecture。這個方向比再做一個輸出 classifier 更對路。

它對實務的啟示是什麼?

如果你正在做 enterprise AI agent,我覺得這篇至少逼你承認三件事:

  1. 檢索層本身就是隱私控制面。 不是只管回覆輸出就好。
  2. 任務完成度和脈絡最小揭露要分開設計。 不然 utility 會自然吃掉 privacy。
  3. 組織角色邊界不能只靠模型自己猜。 需要更顯式的 runtime policy、recipient-aware filtering、context minimization 或 structured mediation。

這也說明為什麼很多真正能上 production 的 enterprise agent,遲早都得長出:

  • recipient-aware retrieval
  • context redaction / minimization
  • policy-bound summarization
  • pre-send review 或可稽核的 approval boundary

不然你其實是在拿「模型很會整理內部脈絡」這件事,直接賭它永遠不會整理過頭。

一句話總結

CI-Work 真正指出的,不是 enterprise agent 偶爾會洩密,而是只要它的價值建立在大量內部脈絡整合上,沒有 context-centric 治理時,效用提升本身就可能和隱私外洩一起成長。

結語

這篇 paper 很值得和一整串 agent security / prompt injection / memory governance 文章放在一起看,因為它補的是另一個常被低估的面向:不是外部惡意內容怎麼劫持 agent,而是 agent 在正常企業脈絡裡,如何因為太想幫忙而越界。

很多企業 AI 真正缺的,不是再多一條「請注意隱私」的 system prompt,而是承認一件比較不浪漫的事:當模型越會做事,就越不能只靠模型自己決定哪些上下文該被帶出去。

很多 enterprise agent 真正該先補的,不是回答品質,而是把「該完成任務」和「不該外流脈絡」拆成兩個不同的系統責任。


本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。