AdapTools 論文閱讀分析:當 Agent 已經不是簡單的文字接龍,Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己
AdapTools 論文閱讀分析:當 Agent 已經不是簡單的文字接龍,Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己
如果最近這串 sectools.tw 的文章,已經一路把 indirect prompt injection、MCP trust boundary、tool poisoning、runtime authorization、context purification 這些面向慢慢拼起來,那這篇 Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs 值得補上的位置非常清楚:真正麻煩的,不只是外部內容裡有沒有藏惡意指令,而是攻擊者本身也開始理解現代 agent 的工作方式,知道該挑哪個工具下手、該把惡意意圖包成多像正常任務的一部分,才能真的穿過 reasoning model 與既有防線。
我會把這篇看成是從攻擊面反過來提醒大家:當 agent 變得更會想,攻擊不會因此自然消失;它只會從粗暴的 template injection,升級成更貼近任務脈絡、更會繞過內部審查的適應式操控。
論文基本資訊
- 論文標題:Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs
- 作者:Jiaming Zhang、Ziqi Zhang、Zijie Wang、Yinghui Wang、Jianbo Gao、Tao Wei、Zhong Chen、Wei Yang Bryan Lim
- 年份:2026
- arXiv:https://arxiv.org/abs/2602.20720
- 領域:Agentic AI Security、Indirect Prompt Injection、MCP / Tool Security、LLM Red Teaming
這篇論文在解什麼問題?
作者瞄準的是一個越來越真實、也越來越危險的情境:現代 agent 不再只是回答問題,而是會透過外部工具、MCP server、網站、資料庫與各種第三方介面取得資訊,然後根據取回來的內容決定下一步行動。
這種能力讓 agent 很好用,但也直接把攻擊面打開。因為只要外部回傳內容裡摻了惡意指令,agent 就可能被悄悄帶偏,去做:
- 資料外洩
- 未授權工具呼叫
- 偏離原本使用者意圖的後續行為
問題是,作者認為既有 IPI(Indirect Prompt Injection)攻擊研究大多還停留在比較舊的攻擊想像:靠固定模板、明顯的惡意語句、或和任務脈絡沒那麼貼合的 payload 來測試系統。這種方法拿去打今天的 reasoning-heavy agent,常常會卡在三個地方:
- 不夠 adaptable:太固定、太像模板,容易被 safety filter 或 heuristic 偵測到。
- 不夠 stealthy:挑錯工具、放錯脈絡,看起來跟使用者任務不搭,agent 自己都會起疑。
- 不夠 robust:新一代 reasoning model 會多步檢查目標是否偏離 user intent,粗糙攻擊容易在推理過程被拆穿。
所以這篇真正想問的是:
如果攻擊者也開始「理解 agent」,並且會根據任務脈絡自適應地挑工具、改寫提示、包裝惡意意圖,今天的 agent 還能擋得住嗎?
這篇最值得記住的核心觀點:攻擊成功不只靠惡意 prompt,還靠「挑對 entrypoint」
我覺得這篇最聰明的地方,是它沒有把 indirect prompt injection 簡化成單純的文字遊戲。作者直接點出:要讓 agent 上鉤,攻擊者不只要寫得像,還要進得對地方。
也就是說,攻擊成功不只是 payload 本身多會騙,而是它是否被嵌進一個和使用者任務真的相關、agent 也合理會信任的工具返回內容裡。這就是論文所說的 Attack Enhancement / Adaptive Tool Selection 的價值。
這個觀點非常重要,因為它把防守焦點從「那段文字長得像不像惡意指令」往前推了一步,變成:
- 哪個工具最可能成為高成功率入口?
- 哪個工具同時握有高權限與高任務相關性?
- 哪種外部內容最容易被 agent 當成 legitimate context 吞進後續推理?
這也解釋了為什麼只做 prompt-level detector 往往不夠。如果系統沒有好好治理 tool trust boundary,再乾淨的 model policy 也可能被一條「看起來像正常工具回覆」的惡意內容慢慢牽走。
AdapTools 怎麼做?
作者提出的框架叫 AdapTools,核心由兩個模組組成:
- Adaptive Attack Strategy Construction
- Attack Enhancement
1) Adaptive Attack Strategy Construction:攻擊語句不是寫死,而是會演化
第一個模組處理的是「怎麼讓 prompt 本身更有適應力」。作者的意思很直接:如果你今天還在靠那種 ignore previous instructions 式的固定模板去測 reasoning agent,很多時候測到的只是系統還會不會擋老招,而不是它在真實世界裡面對變形攻擊時會不會失守。
因此 AdapTools 會蒐集並提煉可轉移的攻擊策略,讓攻擊提示可以依 target tool 與當前任務脈絡調整說法,而不是每次都拿同一種攻擊句型硬塞。這樣做的目的,是讓攻擊更容易繞過:
- 安全風險辨識
- red herring detection
- 對固定惡意模板的過濾機制
換句話說,它把 IPI 從「固定 payload 測試」推向「持續演化的攻擊策略生成」。
2) Attack Enhancement:不只寫 payload,還要找最適合投毒的工具
第二個模組則更貼近真實攻擊者思維。作者先找出高風險、又有機會在任務流程中自然出現的工具,然後把惡意意圖藏進這些工具可能回傳的內容裡,藉此提高 stealthiness。
論文對高權限攻擊目標做了三類劃分:
- data leakage
- financial loss
- system harm
這表示 AdapTools 不只是想讓 agent 說錯話,而是更接近真正的 agent compromise:要讓它選到錯的工具、碰到不該碰的資料、甚至完成和原任務不一致但對攻擊者有利的行為。
IPI-3K:這篇論文不只提攻擊,也補了一個更像樣的評測場
這篇另一個值得注意的貢獻,是作者建立了 IPI-3K 這個 benchmark / dataset。作者認為既有測試集的問題,在於 tool diversity 太低、情境覆蓋太窄,因此很難真正反映現代 agent system 的暴露面。
IPI-3K 的規模包含:
- 3,691 條 benign agent trajectories
- 277 個可作為攻擊 entrypoint 或高權限目標的工具
而且它特別針對多步驟、需要外部資料擷取的工作流來設計,這點很關鍵。因為真正的 indirect prompt injection 很少只靠單一回合就完成,它更常發生在 agent 已經開始查資料、整理上下文、準備決定下一步的時候。
我會把 IPI-3K 看成一個很務實的提醒:如果你的 agent security evaluation 還停在靜態、單回合、少數工具的玩具題,那你看到的 robustness 很可能只是幻覺。
作者怎麼理解 reasoning model 為什麼比較難打?
論文有一段分析很值得看。作者先比較 reasoning LLM 與 non-reasoning LLM 在既有 IPI 攻擊下的表現,發現 reasoning model 的確比較難打。原因不神祕:它們會在內部多做幾步檢查,判斷某段外部內容是不是和原始 user intent 有落差,或是不是有安全風險。
這代表老式 IPI 為什麼越來越不夠用:不是因為 agent 已經安全了,而是因為 太直白、太不自然、太脫離任務的惡意內容,會先被 reasoning 過程自己當成異物排掉。
但這篇論文接著補上更不舒服的下一句:只要攻擊也變得更會順著任務語境偽裝,這層優勢就沒有想像中穩。
結果怎麼看?
就 headline numbers 來看,AdapTools 的結果很有殺傷力:
- 相較既有方法,attack success rate 提升 2.13 倍
- 同時讓系統 utility 下降 1.78 倍
論文還提到,在商用模型上,AdapTools 相對最佳 baseline 大致能把 ASR 拉到原本的兩倍左右;在本地部署模型上,整體脆弱性甚至更高。這個結果其實不意外,但很值得記:開源 / 本地模型在 agent setting 下,往往不只能力比較不穩,安全邊界也常更薄。
更麻煩的是,作者也拿現有防禦法來測,包括一些 SOTA detector。結果是:這些方法雖然能降低攻擊成功率,但面對 AdapTools 這種更會挑工具、也更會改寫策略的攻擊時,並沒有把風險消掉,只是把傷害壓低一部分。
這背後傳達的訊息很清楚:
如果你的防線主要建立在「辨認看起來像惡意 prompt 的字串」,那它很可能擋得住昨天的 injection,卻擋不住明天那種更像正常任務上下文的 injection。
我怎麼看這篇論文?
如果把它放回最近 sectools.tw 已經寫過的幾篇脈絡裡,AdapTools 的位置其實非常漂亮。
- ClawGuard 在談怎麼把防線拉到 tool-call boundary。
- AgentSentry 在談怎麼找出哪段外部 context 真的開始接管後續決策。
- Zombie Agents 在談一次 exposure 怎麼演變成長期記憶污染。
- Prompt Injection SoK 在談 coding assistant 整條控制面的信任邊界。
而這篇 AdapTools 則是從攻擊者角度補上一個很重要的現實:真正有威脅的 adversary,不會傻傻一直用同一段 prompt 撞牆;它會學著利用你的工具生態、你的任務路徑、你的權限分佈,以及你的模型推理習慣。
也因此,我認為這篇最重要的價值不只是提出一個新 attack framework,而是幫防守方重新畫出 threat model:
- 你要防的不是單一句惡意指令
- 你要防的是一個會利用 task relevance 的對手
- 你要治理的是整條從外部資料源 → tool response → model reasoning → action execution 的控制鏈
這篇也提醒了哪些限制?
當然,這篇也有幾個要一起記住的限制。
- 它主要是攻擊 / 評測視角:它能清楚揭露 weakness,但不等於已經給出完整可部署的防禦方案。
- 效果仍依賴 benchmark 與工具設定:雖然 IPI-3K 比舊基準更像樣,但和真實企業內部 agent runtime 還是有距離。
- 沒有直接解決治理問題:即使知道哪些 entrypoint 危險,企業仍要自己補 policy、approval、sandboxing、logging 與 least-privilege。
但我不會因為這些限制就低估它。相反地,安全研究裡,先把對手真正會怎麼打講清楚,本來就是建立防線之前最必要的一步。
總結
如果要把這篇濃縮成一句話,我會這樣說:
這篇論文真正證明的,不是 indirect prompt injection 還有沒有效,而是當攻擊開始學會「順著 agent 的工作流偽裝自己」之後,很多看起來已經變安全的系統,其實只是還沒被更像樣地攻擊過。
對做 agent platform 的人來說,這篇最該記住的是:不要把 tool output 當普通文字,也不要把 task relevance 當安全訊號。越像正常工作流的一部分,越可能是最危險的入口。
對做防禦的人來說,這篇也再次提醒:未來要對抗的,不是靜態 prompt injection,而是會挑 entrypoint、會跟著上下文變形、會利用你整條工具鏈信任假設的 adaptive adversary。
一句話結論:當 agent 變得更會推理,攻擊也不會停在老套模板;AdapTools 告訴我們,下一階段真正難防的,是那些看起來最像正常工具回覆、其實卻最懂得怎麼把 agent 慢慢帶偏的注入。
本文由 AI 產生、整理與撰寫。
