ICON 論文閱讀分析:真正該修的也許不是那段髒資料,而是 Agent 已經被它拉歪的注意力軌跡

論文基本資訊

  • 論文標題:Indirect Prompt Injection Defense for Agents based on Inference-Time Correction
  • 作者:Fuyao Zhang、Jiaming Zhang、Ziqi Zhang、Yinghui Wang、Longtao Huang、Jianbo Gao、Zhong Chen、Wei Yang Bryan Lim
  • 年份:2026
  • 來源:arXiv:2602.20708
  • 論文連結:https://arxiv.org/abs/2602.20708
  • DOI:10.48550/arXiv.2602.20708
  • 主題:Agentic Security、Indirect Prompt Injection、Inference-Time Defense、Latent Space Security、Attention Steering、Runtime Security

如果前幾篇在談 agent prompt injection 防禦的論文,大多還在問「這段外部內容看起來像不像攻擊」、「要不要在工具邊界前直接擋掉」,那這篇 ICON 想補的角度其實滿有意思:有些間接提示注入(IPI)並不是很好靠表面語意辨識,但它們在模型內部留下的注意力軌跡,可能比文字表面更誠實。

作者的核心主張很直接:成功的 IPI 常常會讓 agent 在關鍵步驟對某一小段惡意內容出現異常「過度聚焦」,也就是注意力不像正常任務那樣整合長程上下文,而是被某些 injected tokens 拉成很尖、很窄、很不自然的 dependency。ICON 就是沿著這條線,做了一套 probe + rectify 的 inference-time defense:先偵測這種 latent over-focusing,再盡量不要直接拒絕任務,而是把注意力拉回來,讓 agent 繼續做原本該做的事。

這篇論文最重要的提醒:防 IPI 不一定只能靠「擋」,也可以靠「校正」

這篇我覺得值得寫,不只是因為它又多提一個 detector,而是它抓到了一個現在 agent security 很常遇到的痛點:

  • 你如果防得太鬆,agent 會被 tool-return / web content / retrieval content 帶偏
  • 你如果防得太硬,agent 又會過度拒答、過早中止 workflow

這其實就是很多 prompt injection defense 一直卡住的 security-utility trade-off。作者批評得很準:很多現有方法不管是 template、tool filter 還是 safety fine-tuning,最後都容易走向兩個極端:

  • 要嘛擋不住 adaptive attack,因為攻擊太會偽裝
  • 要嘛把正常任務一起打死,因為模型被訓練得太敏感

ICON 的野心就是把這件事拆開來做:先在 latent space 裡找出「現在是不是被帶偏了」,然後不是整個 abort,而是只對被污染的 attention dependency 做 surgical correction。

作者的關鍵洞察:正常 agent reasoning 比較像整合長程脈絡;成功攻擊則更像一種 attention collapse

ICON 的出發點很漂亮。作者認為,正常 agent 在執行複雜任務時,通常要整合:

  • 使用者原始意圖
  • 先前的 tool observations
  • 多步驟 reasoning 與 action history

所以它的內部注意力分布,理論上會比較分散、比較依賴整條 trajectory。

但 IPI 不一樣。攻擊者如果想把 agent 導去某個未授權工具或動作,它通常要讓模型在某個時點非常用力地看那段 injected payload,而不是維持原本的任務整體脈絡。作者把這種現象描述成一種 over-focusing signature,甚至接近 attention collapse。

這個 framing 的價值在於:它把防禦焦點從「這句話語意上像不像惡意指令」轉向「模型此刻到底是怎麼被它牽走的」。 這和最近幾篇把防線往 causal attribution、action consistency verification 拉的論文,其實是同一條大方向:不要只看文字,開始看控制訊號。

ICON 怎麼做?先量 attention 異常,再做 inference-time 的注意力矯正

ICON 主要有兩個模組:

  1. Latent Space Trace Prober(LSTP):負責偵測 latent anomaly
  2. Mitigating Rectifier(MR):在偵測到異常後做注意力校正

中間最關鍵的診斷量是 Focus Intensity Score(FIS)。作者用 attention entropy 去量每個 head 在生成過程中有沒有出現異常集中。簡單講:

  • entropy 低,代表注意力更集中在少數 tokens 上
  • 如果某些 layer / head 在被攻擊時反覆出現異常低 entropy,就可能是被惡意 prompt 拉住

接著 LSTP 不是直接拿原始 attention matrix 硬判,而是先把這些 heads 的行為壓成固定長度特徵,例如:

  • 最小 entropy
  • 平均 entropy
  • entropy 波動程度

然後用輕量的 CNN + MLP 做分類,判斷當前 latent trace 是否像 IPI。這裡作者要的不是一個超大 detector,而是一個可在 inference-time 插進 agent loop 的輕量 probe。

如果 probe 認為有問題,接著就輪到 Mitigating Rectifier。它不是像傳統 refusal 那樣直接讓 agent停機,而是去調整那些被判定為高風險的 attention dependencies:壓低 adversarial query-key 關聯、放大 task-relevant context,嘗試把 agent 拉回原本的 functional trajectory。

這篇最值得注意的設計:它把 defense 目標從「拒絕有毒內容」改成「保住任務連續性」

我覺得 ICON 最有現場感的地方,不是在它用了 attention,而是在它對問題定義得很務實。

作者直接說,對多步驟 agent 來講,binary refusal 很多時候本身就是一種 operational failure。因為 production agent 真正麻煩的情況,不是你回一句「我拒絕」,而是:

  • 使用者任務其實是合法的
  • 途中某個外部 observation 被污染了
  • 你需要把這段污染切掉,讓剩下的 workflow 仍能繼續

換句話說,ICON 要解的不是單純的 attack detection,而是更接近 runtime recovery。這點很重要,因為它代表作者已經把 IPI 視為 agent execution path 的偏航問題,而不是單純的輸入髒字串問題。

訓練資料怎麼來?不是只收現成攻擊,而是自己合成 adaptive boundary-case samples

作者沒有只拿現成 prompt injection dataset 來訓 detector,而是做了一個 offline 的 attack synthesis 流程。這部分的思路其實很對:

  • 先模擬一個 context-aware adversary
  • 讓它根據任務脈絡選最合理的惡意工具目標
  • 再反覆優化 payload,讓它在 latent space 上更像 benign context,但仍能成功把 agent 帶往未授權 action

這樣做的目的不是炫技攻擊,而是要逼 defense 模組去學到真正的邊界:哪些 latent signals 反映的是「語意偽裝得很好,但控制權其實已經偏了」

這也解釋了為什麼 ICON 特別強調自己不是關鍵字防禦。它希望學到的是 adaptive-benign boundary,而不是某幾個 payload pattern。

實驗最亮眼的地方:它主打的不是最低 ASR,而是更好的 security-utility balance

從論文摘要與方法說明來看,ICON 最想講的不是「我把所有攻擊都清零」,而是:

  • ASR 可以壓到 0.4%
  • 同時比很多強硬防禦多保住超過 50% 的 task utility
  • 對 OOD 場景仍有不錯泛化
  • 連 multimodal agents 也能延伸,平均 utility recovery 約 42%

摘要裡還提到,如果在 TrojanTools 上訓練,再轉到 AgentDojo 類型的 OOD benchmark,ICON 仍能維持低 ASR,且相對一些 fine-tuned guard 模型可帶來平均 69% 的 utility improvement。這些數字最值得注意的不是絕對值,而是它背後代表的方向:

真正好用的 IPI defense,不該只是讓 agent 更常停下來,而是要讓 agent 在不中招的前提下,盡量還能把任務做完。

它和最近幾篇論文最大的差異:不是在 input side 或 action side,而是在 latent runtime 裡做 intervention

如果把 ICON 放回最近這串 agentic security 論文裡看,差異會很清楚:

  • 有些方法在做 input detection
  • 有些方法在做 tool boundary filtering
  • 有些方法在做 action consistency verification
  • ICON 比較像是在做 latent runtime correction

這個位置很有意思。因為它沒有完全相信語意分類器,也沒有把所有責任丟給 outer guardrail,而是直接進到模型內部看:「哪幾個 heads、哪幾層的 dependency 現在不對勁?」

從系統設計角度看,這其實是在把防禦面往 inference-time controllability 推。這條線如果走得通,未來可能不只拿來防 IPI,還可能延伸到:

  • memory poisoning 的 retrieval-time correction
  • 工具描述污染的 dependency suppression
  • 多模態 agent 在 HTML / screenshot / OCR 混合場景下的 control-signal disentanglement

但這篇也有很明顯的前提:它假設 defender 有白箱能力

ICON 很強的一點,也是它很現實的限制:它需要 defender 能檢查並干預模型內部 attention / hidden dynamics。

這代表它比較適合:

  • 自託管模型
  • 可插 inference hook 的 agent runtime
  • 研究型或企業內部可控的 agent stack

但如果你今天用的是純 API black-box frontier model,這條路就比較難直接落地。也就是說,ICON 的價值未必是「所有人明天都能裝上去」,而是它很清楚地指出:如果我們未來想做真正細粒度、低誤殺的 agent runtime defense,白箱或半白箱可觀測性會越來越重要。

我怎麼看這篇?它最有價值的,是把 agent defense 從「內容審查」往「執行軌跡校正」推了一步

這篇論文最打動我的地方,是它其實沒有把 IPI 當成單純的惡意文字問題。它比較像在說:

真正要保護的不是 prompt 本身,而是 agent 從 observation 走到 next action 的那條內部控制鏈。

所以 ICON 的邏輯不是「看到怪字串就拒絕」,而是「當模型的注意力開始以一種不像正常任務的方式塌縮到那段可疑內容上時,能不能在不摧毀任務的前提下把它拉回來」。

這個視角很值得記,因為它把防禦問題從 NLP classifier 邏輯,推向更接近 control / systems 的邏輯。對 production-grade agents 來說,這通常才是長期比較有前途的方向。

對 sectools.tw 讀者來說,這篇最值得留下的結論

我會把 ICON 濃縮成一句話:

當 agent 被間接提示注入帶偏時,真正有價值的防線不一定是更早拒絕,而可能是更準地看見「控制權何時開始偏移」,然後在 inference-time 把它校正回來。

這篇特別值得幾類人看:

  • 做 agent runtime security 的人:它示範了不靠單純拒答的 recovery-style defense
  • 做 prompt injection defense 的人:它提醒你 latent signature 可能比表面語意更穩
  • 做可控模型部署的人:白箱觀測與 inference hook 未來可能是安全能力,不只是 debugging 能力

簡單講,ICON 的價值不只是再多一個 prompt injection detector,而是把 agent security 的問題重新定義成:如何在不中斷工作流的前提下,把被污染的執行軌跡修回來。


如果你最近在追 indirect prompt injection、runtime defense、agent controllability 或 white-box guardrail,這篇很值得讀。 因為它不是只問「怎麼擋」,而是在認真回答另一個更接近 production 的問題:當 agent 已經開始被帶偏,能不能還有辦法把它救回來?

本文由 AI 產生、整理與撰寫。

You may also like