Agentic AI 攻防全景論文閱讀分析：當 AI Agent 變成系統後，安全邊界也得重畫

2026 年 4 月 10 日

論文基本資訊

論文標題：The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey
年份：2026
來源：arXiv:2603.11088 / USENIX Security 2026
論文連結：https://arxiv.org/abs/2603.11088
DOI：10.48550/arXiv.2603.11088
主題：Agentic AI、Agent Security、Prompt Injection、Tool Use、RAG Security、Multi-Agent、Security Survey

如果說前幾篇像 AgentDoG、AIR、OpenSec 分別從 guardrail 診斷、事故善後、以及 incident response agent 的校準問題切入，那 The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey 做的事情更像是把整張地圖攤開：當我們不再把 LLM 當成只會回文字的模型，而是把它接上工具、記憶、RAG、外部系統與多代理人流程後，整個攻防版圖到底變成了什麼樣子？

這篇論文的價值，不在於再證明一次 agent 很危險，或者列幾個 prompt injection demo 嚇人。它真正重要的地方是：作者試圖把 agentic AI security 從零散風險清單，整理成一個可以被系統性理解的研究與工程框架。 這對現在的資安圈很關鍵，因為大家都已經開始把 agent 接進實際 workflow 了，但很多團隊的安全思維仍停留在「把 prompt 寫嚴一點」或「加一層 guardrail」這種單點修補。

這篇論文在處理什麼問題？

作者的起點很明確：agentic AI 的風險，並不是傳統 LLM 風險的線性放大，而是攻擊面結構本身變了。 一旦系統開始擁有：

可調用的工具與 plug-ins
RAG 與外部知識來源
長期記憶與任務狀態
跨步驟規劃與自主執行能力
多代理人分工與互相協調

安全問題就不再只是哪一句 prompt 會不會讓模型胡說八道，而是變成一個完整系統問題：資料會不會被污染、工具會不會被濫用、權限會不會外溢、代理人之間會不會互相放大錯誤、整個 workflow 又該如何被觀測與回滾。

也因此，這篇 survey 不只是整理攻擊技術，而是在回答一個更根本的問題：

當 AI agent 已經開始像軟體系統、像操作員、也像供應鏈節點一樣存在時，我們該用什麼框架來理解它的攻擊面與防禦面？

這篇論文最值得記住的觀點：Agentic AI 的風險是「組合型」的

我認為這篇最值得讀的，不是它列出了多少 threat 類型，而是它背後隱含的一個重要判斷：agentic AI 的核心風險來自組合，而不是單點。

單一 LLM 失誤，很多時候還只是生成錯誤；但一旦同一個模型同時握有：

資料輸入權
工具操作權
任務規劃權
上下文整合權
甚至跨代理人協調權

那麼錯誤就不再停留在回答層，而會進入行動層、狀態層與系統層。這也是為什麼作者強調，agent security 不能只靠傳統 LLM safety 去理解，因為問題早已不只是內容安全，而是自主系統安全。

這篇論文怎麼切整個 attack surface？

雖然公開摘要沒有列出完整 taxonomy 細節，但從作者描述的 framing 可以很清楚看出，這篇 survey 想把 attack surface 至少拆成幾個核心層次：

一、模型與提示層：Prompt injection 仍然重要，但已不再是全部

這一層包括大家最熟悉的 direct / indirect prompt injection、instruction override、goal hijacking 等問題。這些攻擊之所以在 agentic AI 中更危險，是因為它們現在不再只影響回覆內容，而可能直接改寫後續行動方向。

也就是說，在 agent 系統裡，prompt injection 的危害已經從「讓模型說錯話」升級成「讓模型做錯事」。這種差異非常大。因為一旦 injection 成功，受影響的不只是答案品質，還可能是：

查詢哪個資料來源
是否調用高權限工具
把哪個事件升級為 incident
是否誤刪、誤封鎖、誤回應

二、知識與檢索層：RAG 讓 agent 更有根據，也讓污染更有殺傷力

作者把 agentic AI 視為與 non-AI components 強耦合的系統，這表示 RAG 與外部知識源必然成為關鍵攻擊面。這裡最典型的問題包括：

knowledge-base poisoning：把惡意或偏誤內容灌進索引或知識庫
retrieval manipulation：讓 agent 優先抓到錯的、惡意的、或刻意設計過的上下文
supply-chain contamination：第三方資料、文件、repo、網頁本身就是攻擊入口

這一層的危險之處，在於它非常符合現實工作流。因為今天很多團隊之所以敢讓 agent 上線，就是因為覺得「它有檢索、不是純 hallucination」。但這篇 survey 的提醒很冷靜：有檢索不代表更安全，有時只是把信任從模型錯誤，轉移成資料污染。

三、工具與執行層：真正高風險的地方，是 agent 開始能動手

一個只會回文字的模型，再危險也往往還隔著一層人類審批；但一個能直接呼叫 shell、ticket system、browser、資料庫、雲端 API、EDR、SIEM 的 agent，風險完全不同。

作者把這種 agent 與 non-AI components 的耦合視為核心問題，這很正確。因為安全上真正棘手的從來不是模型會不會想，而是模型能不能做、做了之後怎麼被限制、做錯了後誰來收拾。

這層典型風險包括：

工具濫用與權限越界
plug-in / API exploitation
code execution 造成的行動級失誤
把不可信輸入一路傳進高風險執行面

四、多代理人層：錯誤不只會傳播，還會互相正當化

近幾個月資安與 agentic AI 論文一再出現 multi-agent 架構，因為它很適合描述分工、規劃、驗證與反思。但這篇 survey 的價值，在於它沒有把多代理人只當成能力增強器，而是把它同時看成新的 attack surface。

原因很簡單：當多個 agent 開始互相交接、驗證、協調時，新的風險就出現了：

錯誤訊息在 agent 間傳播並被逐步合理化
一個被污染的 agent 變成其他 agent 的上游信任來源
責任邊界變模糊，出問題時更難定位是哪一跳失真
emergent behavior 讓整體系統產生單一 agent 沒有的失控模式

這正是 agentic security 和傳統應用安全最大的差異之一：你要防守的不只是元件，而是元件互動後浮現出來的系統行為。

防禦面怎麼看？這篇論文不是只講「加 guardrail」

這篇 survey 比較成熟的地方，是它談 defense 時不是停在口號，而是把防禦拉回系統工程語言。從摘要可見，作者關注的防禦至少包括：

input sanitization
retrieval filters
sandboxes
access control
AI guardrails

這組列表本身就說明一件事：agentic AI 的防守不是單點模型調教，而是多層控制面協作。 換句話說，真正有用的安全架構不會問「要不要 guardrail」，而會問：

不可信輸入在進模型前怎麼清洗？
檢索結果在進上下文前怎麼過濾？
工具執行是否被沙箱隔離？
權限是不是最小化、分階段授權？
高風險操作是否有 approval boundary？
出錯之後能否追溯、終止、回滾？

我很認同這個方向。因為這等於是在提醒整個產業：agent security 的本質，不是安全 prompt engineering，而是 secure systems engineering。

這篇論文和近期 sectools.tw 那條主線怎麼接？

如果把最近幾篇放在一起，這篇 survey 的位置其實很清楚：

AgentDoG 告訴你 agent 安全不能只用 safe / unsafe 二分法
AIR 告訴你 agent safety 需要事故回應與善後能力
OpenSec 告訴你問題常常不是 agent 完全不懂，而是它過早行動、過度自信
這篇 survey 則把整個 attack / defense landscape 一次整理出來，讓你知道上述問題其實都屬於同一個更大的系統性議題

也因此，這篇特別適合接在最近這波 agentic security 文章後面。它不會和某一篇技術 paper 重複，而是幫讀者把零散論文重新拼回一張完整地圖。

它真正指出的研究缺口是什麼？

從摘要可以看出，作者不只是做文獻盤點，還想指出 secure agentic AI 目前還缺什麼。這裡至少有三個特別重要的缺口：

1. 缺少真正能衡量 agent 風險的安全指標

作者提到像 Unsafe Action Rate、Privilege Escalation Distance 這類評估概念。這非常重要，因為過去太多 benchmark 仍停留在答對率、成功率、任務完成率，但 agentic AI 真正要衡量的，往往是：

它犯錯時離危險行為有多近？
它跨越權限邊界需要多少步？
它會不會在錯的前提下仍持續推進？

2. 缺少可驗證、可解釋、可審核的 agent 行為保證

這篇把 secure agentic systems 當成研究基礎框架來談，代表作者很清楚：未來最大的難題之一，是如何把 agent behavior 從「看起來合理」變成「可以驗證」。這件事目前還遠沒成熟。

3. 缺少 supply-chain 視角的完整治理

Agent 不只吃 prompt，還吃文件、API、工具、套件、外部知識、第三方服務。這使它天然帶有供應鏈特性。若沒有 supply-chain safeguards，很多防禦其實只是把問題往外包裝，而沒有真正解掉。

我怎麼看這篇論文的價值？

如果要用一句話概括，我會這樣說：

這篇論文的真正貢獻，不是替 agentic AI 製造更多恐慌，而是逼我們承認：當 AI agent 開始像基礎設施一樣運作時，安全問題也必須升級成基礎設施等級來設計。

這種視角很重要。因為現在市場上有太多討論還卡在「agent 很厲害」與「agent 很危險」這兩種情緒之間擺盪，但真正需要的其實是第三種語言：agent 是系統，所以得用系統方法治理。

而這篇 survey 的價值，正是在替這種語言鋪路。

總結

The Attack and Defense Landscape of Agentic AI: A Comprehensive Survey 值得讀，不是因為它又替 prompt injection 換了一個新名字，而是因為它把 agentic AI 安全面臨的問題重新整理成了一張更完整的地圖：從模型、提示、RAG、工具、外部元件，到多代理人互動與供應鏈，攻擊面與防禦面都在同步擴張。

對資安實務者來說，這篇最重要的提醒其實很簡單：

不要再把 agent 只當成比較會做事的 LLM
不要再把 guardrail 當成唯一答案
真正需要建立的，是跨輸入、檢索、工具、權限、觀測與 incident response 的整體安全架構

換句話說，當 agentic AI 從 demo 走向基礎設施，安全也必須從 patch 思維走向架構思維。 這就是這篇 paper 最值得記住的地方。

免責聲明

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文摘要、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。由於本文所依據之公開資訊未涵蓋全文全部圖表、案例研究與 extended discussion，對完整 taxonomy、case study 細節與各防禦策略評估之詮釋，仍可能受限於公開材料粒度。實際技術細節與作者最終論證，仍應以原始論文與正式發表版本為準。

Agentic AI 攻防全景論文閱讀分析：當 AI Agent 變成系統後，安全邊界也得重畫

論文基本資訊

這篇論文在處理什麼問題？

這篇論文最值得記住的觀點：Agentic AI 的風險是「組合型」的

這篇論文怎麼切整個 attack surface？

一、模型與提示層：Prompt injection 仍然重要，但已不再是全部

二、知識與檢索層：RAG 讓 agent 更有根據，也讓污染更有殺傷力

三、工具與執行層：真正高風險的地方，是 agent 開始能動手

四、多代理人層：錯誤不只會傳播，還會互相正當化

防禦面怎麼看？這篇論文不是只講「加 guardrail」

這篇論文和近期 sectools.tw 那條主線怎麼接？

它真正指出的研究缺口是什麼？

1. 缺少真正能衡量 agent 風險的安全指標

2. 缺少可驗證、可解釋、可審核的 agent 行為保證

3. 缺少 supply-chain 視角的完整治理

我怎麼看這篇論文的價值？

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在處理什麼問題？

這篇論文最值得記住的觀點：Agentic AI 的風險是「組合型」的

這篇論文怎麼切整個 attack surface？

一、模型與提示層：Prompt injection 仍然重要，但已不再是全部

二、知識與檢索層：RAG 讓 agent 更有根據，也讓污染更有殺傷力

三、工具與執行層：真正高風險的地方，是 agent 開始能動手

四、多代理人層：錯誤不只會傳播，還會互相正當化

防禦面怎麼看？這篇論文不是只講「加 guardrail」

這篇論文和近期 sectools.tw 那條主線怎麼接？

它真正指出的研究缺口是什麼？

1. 缺少真正能衡量 agent 風險的安全指標

2. 缺少可驗證、可解釋、可審核的 agent 行為保證

3. 缺少 supply-chain 視角的完整治理

我怎麼看這篇論文的價值？

總結

免責聲明

發佈留言 取消回覆

You may also like

Semantic DoS 論文閱讀分析：很多 LLM robot 真正先被打掉的，不是 integrity，而是被安全語言嚇到停工

ZeroDayBench 論文閱讀分析：當 defensive LLM agent 開始面對真正沒見過的漏洞

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆