Security Considerations for Multi-agent Systems 論文閱讀分析：當 AI 不再只是一個 Agent，安全問題就不再只是 Prompt Injection

2026 年 4 月 10 日

Security Considerations for Multi-agent Systems 論文閱讀分析：當 AI 不再只是一個 Agent，安全問題就不再只是 Prompt Injection

本文由 AI 產生、整理與撰寫。

如果最近 sectools.tw 這串文章，已經一路把 system prompt、tool supply chain、memory poisoning、personalized assistant、protocol hardening 與 runtime governance 這些主題慢慢拼起來，那這篇 Security Considerations for Multi-agent Systems 的價值就在於：它不再把風險看成某個單點漏洞，而是直接問一個更上位、也更麻煩的問題——當系統裡同時存在多個會規劃、會互相傳話、會共用記憶、還能拿到工具權限的 agent 時，我們到底該怎麼重新畫安全邊界？

這不是把 single-agent 的風險簡單乘上 N 而已。作者的核心判斷很清楚：多代理系統（MAS, multi-agent systems）之所以危險，不是因為 agent 變多，而是因為 authority、memory、communication 與 coordination 這四件事開始彼此纏在一起。 一旦這幾個維度同時打開，攻擊面就不再只是某句 prompt，而是整條會跨 agent 傳播、跨 memory 留存、跨工具執行、還可能在非決定性流程中持續放大的行為鏈。

論文標題：Security Considerations for Multi-agent Systems
作者：Tam Nguyen、Moses Ndebugre、Dheeraj Arremsetty
來源：arXiv:2603.09002（2026）
研究類型：多代理 AI 安全 threat landscape 與 framework coverage analysis

這篇論文在做什麼？

這篇不是提出新的 benchmark，也不是發表一個新的 guardrail 系統；它做的是更像「安全地圖繪製」的工作。作者先整理 production-grade 多代理架構的技術知識，再用 threat modeling 的方式，系統化枚舉 MAS 的安全風險，最後把 16 套既有 AI security / governance frameworks 拿來逐項比對，看這些框架到底能不能覆蓋多代理時代真正會出現的問題。

它的方法可以拆成四步：

建立多代理系統的技術知識底稿，理解真實 MAS 的運作方式。
用生成式 AI 輔助 threat modeling，再由領域專家驗證與修正。
把風險拆成可逐項評分的 survey / scoring plan。
用三分制去衡量 16 個 framework 對每個風險項目的覆蓋程度。

最後整理出來的結果相當有份量：作者把 MAS 風險彙整成 9 大類、193 個主威脅項目。這個規模本身就說明一件事：多代理安全不是多幾條最佳實務就能補起來的小缺口，而是整個安全模型需要升級。

作者認為 MAS 和單一 LLM 最大差別在哪？

這篇最值得記住的一點，是它沒有把多代理系統理解成「很多個 chatbot 排排站」，而是把它視為一種新的系統形態。論文特別強調，MAS 往往同時具備以下特徵：

delegated tool authority：agent 不只會回答，還能代表使用者調用外部工具。
shared persistent memory：agent 之間可能共用、讀寫、繼承長期狀態。
inter-agent communication：agent 會彼此傳遞任務、證據、指令與上下文。
distributed coordination：任務可能被切成多段，由不同 agent 串接完成。

這四個特徵一結合，風險就會從單點變成系統性問題。舉例來說，一個看似低風險的 agent 如果可以向另一個高權限 agent 發送任務，真正的攻擊面就不在它自己的權限，而在它能否影響下一跳。 同理，一段惡意或污染過的記憶，一旦被多個 agent 反覆讀寫，就不再只是 memory poisoning，而是會變成跨角色、跨回合、跨任務的長鏈污染。

九大風險類別裡，哪些最值得注意？

論文把風險分成九個大類。即便不把每一項都逐條背下來，從架構上看也能抓到幾條非常重要的主線。

1. Non-Determinism：最難管的不是惡意，而是不穩定

這篇一個很有意思的發現是：在作者評估的 16 套 framework 裡，覆蓋最差的不是最戲劇化的攻擊，而是 non-determinism。平均分數只有 1.231，代表大多數框架對這個問題都處理得很有限。

這其實非常合理。因為多代理系統一旦進入真實環境，很多風險不是來自單次明確違規，而是來自：

多個 agent 對同一訊號做出不同解讀
任務分派順序不同造成不同決策路徑
tool response 的微小差異被後續 agent 放大
同一個目標在多輪協作裡逐漸偏離原始 intent

換句話說，多代理安全最大的敵人之一，未必是顯性的惡意輸入，而是複雜系統裡「每一輪都看起來還行，但最後整體走偏」的累積效應。 這點和傳統安全思維很不一樣。很多框架擅長檢查 policy violation，卻不擅長處理 coordination drift。

2. Data Leakage：資料外洩在 MAS 裡會變成結構性問題

第二個覆蓋最差的風險類別是 Data Leakage，平均分數 1.340。這點也非常值得注意。因為在單 agent 場景裡，資料外洩通常還能相對直觀地追：是哪個 prompt、哪個 tool、哪個 output 洩出去了。但在 MAS 中，資料可能經過：

某個 agent 的中繼摘要
共享記憶的再寫入
其他 agent 的工具調用參數
跨 agent 的任務交接訊息

於是資料外洩不再只是「某個 agent 說太多」，而是可能變成資訊沿著系統內部合法流程被逐步轉譯、複製、重組，最後在某個你本來沒預期的節點流出去。這跟最近幾篇談 backdoored tool use、runtime supply chain、personalized assistant memory risk 的文章其實完全同一條線：真正危險的不是某個單一輸出，而是整個 execution graph 裡資料如何流動。

3. Communication / Coordination 風險：會互相傳話，就會互相放大錯誤

MAS 的另一個關鍵風險，在於 agent 之間的訊息不是被動上下文，而是可被信任、可被延續、可被執行的 operational input。一旦系統沒有清楚定義：

哪種 agent 可以向哪種 agent 發號施令
哪些訊息只是建議，哪些訊息會觸發動作
agent 間傳遞的證據是否需要 provenance
跨 agent 記憶寫入是否需要 scope 與審計

那麼「communication」本身就會變成攻擊面。你可以把它想成一種 agent 內部供應鏈：前一個 agent 產生的內容，不只是資訊，也是下一個 agent 的依賴項。

這篇最重要的實證結果是什麼？

論文最有份量的地方，不只是列出風險，而是把這些風險拿去對照現有 framework。結果並不好看：

作者評估了 16 套 AI security / governance frameworks
沒有任何一套 framework 能在任一單一風險類別中達成多數覆蓋
OWASP Agentic Security Initiative 整體表現最好，但總覆蓋率也只有 65.3%
CDAO Generative AI Responsible AI Toolkit 在 development 與 operations 階段表現相對較佳
整體最弱的面向集中在 non-determinism 與 data leakage

這些結果其實很有啟發性。它不是在說現有 framework 沒用，而是在說：大部分框架其實還活在 single-model 或單次 inference 的世界觀裡。 它們可以幫你討論 fairness、harm、一般安全控制、甚至基本的 agent 安全原則，但一旦系統進入多代理協作、共享狀態與 delegated authority 的場景，框架就開始出現大片盲區。

為什麼這篇對實務團隊特別有價值？

因為很多團隊現在談 agent security，還停在很表面的層次：防 prompt injection、加 guardrails、限制工具清單、留一份 log。這些當然有用，但對 MAS 來說還遠遠不夠。

這篇論文真正提醒大家的是：你必須開始把 multi-agent system 當成分散式系統、權限系統、記憶系統與社會技術系統的混合體來看。 真正該問的問題會更像：

agent-to-agent 的 trust boundary 怎麼畫？
memory object 的 ownership / scope / lifetime 怎麼定？
不同角色 agent 的 authority escalation path 是否可驗證？
非決定性協作過程是否能被稽核、重放與追責？
當 agent 之間互相引用時，provenance 是否會斷掉？

這些都不是單靠 prompt hardening 能解決的問題。它們更接近我們在傳統安全工程裡熟悉的議題：least privilege、segmentation、provenance、change control、auditability、failure containment。也就是說，MAS security 的本質，不是把模型教乖，而是重新把系統工程做對。

這篇論文的限制在哪？

它也有很明顯的限制，而且作者自己其實某種程度上也知道。

它主要是一篇 framework coverage analysis，不是 live exploit benchmark。
風險項目很多，但很多仍屬於 taxonomy / threat modeling 層次，而非實際 exploit chain 驗證。
三分制評分本身帶有方法學抽象，適合做 coverage 對比，但不代表真實防禦強度。
作者使用 generative AI-assisted threat modeling，再由專家驗證；這有助於擴張覆蓋面，但也可能受建模口徑影響。

但這些限制不會削弱它的價值。相反地，這篇的意義比較像是在幫後續研究鋪路：先把多代理安全的問題空間畫清楚，之後 benchmark、formal model、runtime defense、protocol hardening 才有共同語言。

怎麼把它放進近期 sectools.tw 的主線裡？

如果把這篇放回最近這一串文章的脈絡，它的位置其實非常漂亮。

前面幾篇我們已經一路看到：

system prompt 是 policy surface，也是 attack surface
tool / skill supply chain 會把權限與 secrets 變成新的滲透入口
memory 不只是方便，也是 persistence 與 poisoning 的核心
protocol / runtime governance 不能再只靠「safe / unsafe」二分法
personalized assistant 的風險不在單一回答，而在整條 read / remember / act 鏈

而這篇 Security Considerations for Multi-agent Systems 則把上述所有線索往上一收：當這些能力不再集中在一個 agent 身上，而是分散到多個可互動、可協作、可共享狀態的 agent 上時，風險不會相加，而會重組。

這也就是它最值得記住的地方：MAS 安全不是「agent security 的進階版」，而是另一種系統安全問題。 它更接近 distributed systems security，只是節點換成會推理、會說話、會用工具、還帶著不穩定性的 agent。

我的看法

我很喜歡這篇，因為它不是在賣一個新防禦招式，而是在做一件更重要的事：幫大家承認問題已經變了。

現在很多團隊還在用單模型時代的語言討論 agent 風險，所以會一直覺得「我們不是已經加了 guardrail、加了 logging、加了 policy 嗎？」但這篇提醒我們，真正需要更新的不是 checklist，而是心智模型。當系統開始有多個 agent、共享記憶、跨角色協作與 delegated tool authority 時，安全已經從 model behavior 問題，升級成 architecture problem。

這也是為什麼近兩個月最值得追的 agentic security 論文，越來越不像傳統 LLM safety 論文，而越來越像 systems security、governance engineering 與 distributed trust 的交叉地帶。從這個角度看，這篇 paper 雖然不是最 flashy 的，但它很可能是之後很多 MAS security 工作的底圖之一。

一句話總結：當 AI 系統裡不再只有一個 agent，而是一群會互相傳話、共用記憶、分派任務、代替你調工具的 agent 時，真正需要保護的已經不是某段 prompt，而是整個協作架構本身。

免責聲明：本文由 AI 產生、整理與撰寫。內容主要依據公開論文摘要、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保完整性與可讀性，仍可能因模型理解限制、資料版本差異或語意轉譯而存在疏漏、不精確或更新延遲之處。實際技術細節、評分方法、風險分類與最終結論，仍應以原始論文與作者公開資料為準。

Security Considerations for Multi-agent Systems 論文閱讀分析：當 AI 不再只是一個 Agent，安全問題就不再只是 Prompt Injection

Security Considerations for Multi-agent Systems 論文閱讀分析：當 AI 不再只是一個 Agent，安全問題就不再只是 Prompt Injection

這篇論文在做什麼？

作者認為 MAS 和單一 LLM 最大差別在哪？

九大風險類別裡，哪些最值得注意？

1. Non-Determinism：最難管的不是惡意，而是不穩定

2. Data Leakage：資料外洩在 MAS 裡會變成結構性問題

3. Communication / Coordination 風險：會互相傳話，就會互相放大錯誤

這篇最重要的實證結果是什麼？

為什麼這篇對實務團隊特別有價值？

這篇論文的限制在哪？

怎麼把它放進近期 sectools.tw 的主線裡？

我的看法

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

Security Considerations for Multi-agent Systems 論文閱讀分析：當 AI 不再只是一個 Agent，安全問題就不再只是 Prompt Injection

這篇論文在做什麼？

作者認為 MAS 和單一 LLM 最大差別在哪？

九大風險類別裡，哪些最值得注意？

1. Non-Determinism：最難管的不是惡意，而是不穩定

2. Data Leakage：資料外洩在 MAS 裡會變成結構性問題

3. Communication / Coordination 風險：會互相傳話，就會互相放大錯誤

這篇最重要的實證結果是什麼？

為什麼這篇對實務團隊特別有價值？

這篇論文的限制在哪？

怎麼把它放進近期 sectools.tw 的主線裡？

我的看法

發佈留言 取消回覆

You may also like

論文閱讀分析：如何用大型語言模型更有效辨識 CTI 報告中的 ATT&CK 攻擊技術

Parallax 論文閱讀分析：當 AI Agent 一邊思考一邊直接動手，安全邊界其實早就沒了

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆