AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

2026 年 4 月 17 日

AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

如果最近這串 sectools.tw 的文章，已經一路把 indirect prompt injection、MCP trust boundary、tool poisoning、runtime authorization、context purification 這些面向慢慢拼起來，那這篇 Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs 值得補上的位置非常清楚：真正麻煩的，不只是外部內容裡有沒有藏惡意指令，而是攻擊者本身也開始理解現代 agent 的工作方式，知道該挑哪個工具下手、該把惡意意圖包成多像正常任務的一部分，才能真的穿過 reasoning model 與既有防線。

我會把這篇看成是從攻擊面反過來提醒大家：當 agent 變得更會想，攻擊不會因此自然消失；它只會從粗暴的 template injection，升級成更貼近任務脈絡、更會繞過內部審查的適應式操控。

論文基本資訊

論文標題：Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs
作者：Jiaming Zhang、Ziqi Zhang、Zijie Wang、Yinghui Wang、Jianbo Gao、Tao Wei、Zhong Chen、Wei Yang Bryan Lim
年份：2026
arXiv：https://arxiv.org/abs/2602.20720
領域：Agentic AI Security、Indirect Prompt Injection、MCP / Tool Security、LLM Red Teaming

這篇論文在解什麼問題？

作者瞄準的是一個越來越真實、也越來越危險的情境：現代 agent 不再只是回答問題，而是會透過外部工具、MCP server、網站、資料庫與各種第三方介面取得資訊，然後根據取回來的內容決定下一步行動。

這種能力讓 agent 很好用，但也直接把攻擊面打開。因為只要外部回傳內容裡摻了惡意指令，agent 就可能被悄悄帶偏，去做：

資料外洩
未授權工具呼叫
偏離原本使用者意圖的後續行為

問題是，作者認為既有 IPI（Indirect Prompt Injection）攻擊研究大多還停留在比較舊的攻擊想像：靠固定模板、明顯的惡意語句、或和任務脈絡沒那麼貼合的 payload 來測試系統。這種方法拿去打今天的 reasoning-heavy agent，常常會卡在三個地方：

不夠 adaptable：太固定、太像模板，容易被 safety filter 或 heuristic 偵測到。
不夠 stealthy：挑錯工具、放錯脈絡，看起來跟使用者任務不搭，agent 自己都會起疑。
不夠 robust：新一代 reasoning model 會多步檢查目標是否偏離 user intent，粗糙攻擊容易在推理過程被拆穿。

所以這篇真正想問的是：

如果攻擊者也開始「理解 agent」，並且會根據任務脈絡自適應地挑工具、改寫提示、包裝惡意意圖，今天的 agent 還能擋得住嗎？

這篇最值得記住的核心觀點：攻擊成功不只靠惡意 prompt，還靠「挑對 entrypoint」

我覺得這篇最聰明的地方，是它沒有把 indirect prompt injection 簡化成單純的文字遊戲。作者直接點出：要讓 agent 上鉤，攻擊者不只要寫得像，還要進得對地方。

也就是說，攻擊成功不只是 payload 本身多會騙，而是它是否被嵌進一個和使用者任務真的相關、agent 也合理會信任的工具返回內容裡。這就是論文所說的 Attack Enhancement / Adaptive Tool Selection 的價值。

這個觀點非常重要，因為它把防守焦點從「那段文字長得像不像惡意指令」往前推了一步，變成：

哪個工具最可能成為高成功率入口？
哪個工具同時握有高權限與高任務相關性？
哪種外部內容最容易被 agent 當成 legitimate context 吞進後續推理？

這也解釋了為什麼只做 prompt-level detector 往往不夠。如果系統沒有好好治理 tool trust boundary，再乾淨的 model policy 也可能被一條「看起來像正常工具回覆」的惡意內容慢慢牽走。

AdapTools 怎麼做？

作者提出的框架叫 AdapTools，核心由兩個模組組成：

Adaptive Attack Strategy Construction
Attack Enhancement

1) Adaptive Attack Strategy Construction：攻擊語句不是寫死，而是會演化

第一個模組處理的是「怎麼讓 prompt 本身更有適應力」。作者的意思很直接：如果你今天還在靠那種 ignore previous instructions 式的固定模板去測 reasoning agent，很多時候測到的只是系統還會不會擋老招，而不是它在真實世界裡面對變形攻擊時會不會失守。

因此 AdapTools 會蒐集並提煉可轉移的攻擊策略，讓攻擊提示可以依 target tool 與當前任務脈絡調整說法，而不是每次都拿同一種攻擊句型硬塞。這樣做的目的，是讓攻擊更容易繞過：

安全風險辨識
red herring detection
對固定惡意模板的過濾機制

換句話說，它把 IPI 從「固定 payload 測試」推向「持續演化的攻擊策略生成」。

2) Attack Enhancement：不只寫 payload，還要找最適合投毒的工具

第二個模組則更貼近真實攻擊者思維。作者先找出高風險、又有機會在任務流程中自然出現的工具，然後把惡意意圖藏進這些工具可能回傳的內容裡，藉此提高 stealthiness。

論文對高權限攻擊目標做了三類劃分：

data leakage
financial loss
system harm

這表示 AdapTools 不只是想讓 agent 說錯話，而是更接近真正的 agent compromise：要讓它選到錯的工具、碰到不該碰的資料、甚至完成和原任務不一致但對攻擊者有利的行為。

IPI-3K：這篇論文不只提攻擊，也補了一個更像樣的評測場

這篇另一個值得注意的貢獻，是作者建立了 IPI-3K 這個 benchmark / dataset。作者認為既有測試集的問題，在於 tool diversity 太低、情境覆蓋太窄，因此很難真正反映現代 agent system 的暴露面。

IPI-3K 的規模包含：

3,691 條 benign agent trajectories
277 個可作為攻擊 entrypoint 或高權限目標的工具

而且它特別針對多步驟、需要外部資料擷取的工作流來設計，這點很關鍵。因為真正的 indirect prompt injection 很少只靠單一回合就完成，它更常發生在 agent 已經開始查資料、整理上下文、準備決定下一步的時候。

我會把 IPI-3K 看成一個很務實的提醒：如果你的 agent security evaluation 還停在靜態、單回合、少數工具的玩具題，那你看到的 robustness 很可能只是幻覺。

作者怎麼理解 reasoning model 為什麼比較難打？

論文有一段分析很值得看。作者先比較 reasoning LLM 與 non-reasoning LLM 在既有 IPI 攻擊下的表現，發現 reasoning model 的確比較難打。原因不神祕：它們會在內部多做幾步檢查，判斷某段外部內容是不是和原始 user intent 有落差，或是不是有安全風險。

這代表老式 IPI 為什麼越來越不夠用：不是因為 agent 已經安全了，而是因為 太直白、太不自然、太脫離任務的惡意內容，會先被 reasoning 過程自己當成異物排掉。

但這篇論文接著補上更不舒服的下一句：只要攻擊也變得更會順著任務語境偽裝，這層優勢就沒有想像中穩。

結果怎麼看？

就 headline numbers 來看，AdapTools 的結果很有殺傷力：

相較既有方法，attack success rate 提升 2.13 倍
同時讓系統 utility 下降 1.78 倍

論文還提到，在商用模型上，AdapTools 相對最佳 baseline 大致能把 ASR 拉到原本的兩倍左右；在本地部署模型上，整體脆弱性甚至更高。這個結果其實不意外，但很值得記：開源 / 本地模型在 agent setting 下，往往不只能力比較不穩，安全邊界也常更薄。

更麻煩的是，作者也拿現有防禦法來測，包括一些 SOTA detector。結果是：這些方法雖然能降低攻擊成功率，但面對 AdapTools 這種更會挑工具、也更會改寫策略的攻擊時，並沒有把風險消掉，只是把傷害壓低一部分。

這背後傳達的訊息很清楚：

如果你的防線主要建立在「辨認看起來像惡意 prompt 的字串」，那它很可能擋得住昨天的 injection，卻擋不住明天那種更像正常任務上下文的 injection。

我怎麼看這篇論文？

如果把它放回最近 sectools.tw 已經寫過的幾篇脈絡裡，AdapTools 的位置其實非常漂亮。

ClawGuard 在談怎麼把防線拉到 tool-call boundary。
AgentSentry 在談怎麼找出哪段外部 context 真的開始接管後續決策。
Zombie Agents 在談一次 exposure 怎麼演變成長期記憶污染。
Prompt Injection SoK 在談 coding assistant 整條控制面的信任邊界。

而這篇 AdapTools 則是從攻擊者角度補上一個很重要的現實：真正有威脅的 adversary，不會傻傻一直用同一段 prompt 撞牆；它會學著利用你的工具生態、你的任務路徑、你的權限分佈，以及你的模型推理習慣。

也因此，我認為這篇最重要的價值不只是提出一個新 attack framework，而是幫防守方重新畫出 threat model：

你要防的不是單一句惡意指令
你要防的是一個會利用 task relevance 的對手
你要治理的是整條從外部資料源 → tool response → model reasoning → action execution 的控制鏈

這篇也提醒了哪些限制？

當然，這篇也有幾個要一起記住的限制。

它主要是攻擊 / 評測視角：它能清楚揭露 weakness，但不等於已經給出完整可部署的防禦方案。
效果仍依賴 benchmark 與工具設定：雖然 IPI-3K 比舊基準更像樣，但和真實企業內部 agent runtime 還是有距離。
沒有直接解決治理問題：即使知道哪些 entrypoint 危險，企業仍要自己補 policy、approval、sandboxing、logging 與 least-privilege。

但我不會因為這些限制就低估它。相反地，安全研究裡，先把對手真正會怎麼打講清楚，本來就是建立防線之前最必要的一步。

總結

如果要把這篇濃縮成一句話，我會這樣說：

這篇論文真正證明的，不是 indirect prompt injection 還有沒有效，而是當攻擊開始學會「順著 agent 的工作流偽裝自己」之後，很多看起來已經變安全的系統，其實只是還沒被更像樣地攻擊過。

對做 agent platform 的人來說，這篇最該記住的是：不要把 tool output 當普通文字，也不要把 task relevance 當安全訊號。越像正常工作流的一部分，越可能是最危險的入口。

對做防禦的人來說，這篇也再次提醒：未來要對抗的，不是靜態 prompt injection，而是會挑 entrypoint、會跟著上下文變形、會利用你整條工具鏈信任假設的 adaptive adversary。

一句話結論：當 agent 變得更會推理，攻擊也不會停在老套模板；AdapTools 告訴我們，下一階段真正難防的，是那些看起來最像正常工具回覆、其實卻最懂得怎麼把 agent 慢慢帶偏的注入。

本文由 AI 產生、整理與撰寫。

AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

論文基本資訊

這篇論文在解什麼問題？

這篇最值得記住的核心觀點：攻擊成功不只靠惡意 prompt，還靠「挑對 entrypoint」

AdapTools 怎麼做？

1) Adaptive Attack Strategy Construction：攻擊語句不是寫死，而是會演化

2) Attack Enhancement：不只寫 payload，還要找最適合投毒的工具

IPI-3K：這篇論文不只提攻擊，也補了一個更像樣的評測場

作者怎麼理解 reasoning model 為什麼比較難打？

結果怎麼看？

我怎麼看這篇論文？

這篇也提醒了哪些限制？

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

AdapTools 論文閱讀分析：當 Agent 已經不是簡單的文字接龍，Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

論文基本資訊

這篇論文在解什麼問題？

這篇最值得記住的核心觀點：攻擊成功不只靠惡意 prompt，還靠「挑對 entrypoint」

AdapTools 怎麼做？

1) Adaptive Attack Strategy Construction：攻擊語句不是寫死，而是會演化

2) Attack Enhancement：不只寫 payload，還要找最適合投毒的工具

IPI-3K：這篇論文不只提攻擊，也補了一個更像樣的評測場

作者怎麼理解 reasoning model 為什麼比較難打？

結果怎麼看？

我怎麼看這篇論文？

這篇也提醒了哪些限制？

總結

發佈留言 取消回覆

You may also like

LLMs in the SOC 論文閱讀分析：真實分析師到底怎麼把 LLM 用進 Security Operations？

論文閱讀分析：用本體論與大型語言模型打造透明化 CTI 結構化輸出

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆