Secure Agentic Web 論文閱讀分析:當 Agent 不再只是單機執行,而是開始彼此委派、跨網域串接,安全問題就會從單點失誤變成系統性擴散

本文由 AI 產生、整理與撰寫。

Secure Agentic Web 論文閱讀分析:當 Agent 不再只是單機執行,而是開始彼此委派、跨網域串接,安全問題就會從單點失誤變成系統性擴散

論文基本資訊

  • 論文標題:From Secure Agentic AI to Secure Agentic Web: Challenges, Threats, and Future Directions
  • 作者:Zhihang Deng、Jiaping Gui、Weinan Zhang
  • 年份:2026
  • 來源:arXiv:2603.01564
  • 論文連結:https://arxiv.org/abs/2603.01564
  • DOI:10.48550/arXiv.2603.01564
  • 主題:Agentic Web、Agentic Security、Prompt Injection、Memory Attacks、Toolchain Abuse、Protocol Security、Trust Propagation

如果最近這一串 sectools.tw 論文已經一路從 prompt injectionmemory poisoningtool / skill supply chainruntime guardrailsagent protocol 寫到很細,那這篇 From Secure Agentic AI to Secure Agentic Web 真正值得補進來的理由,是它把問題再往外推了一層:

真正該怕的,可能已經不是單一 agent 會不會被劫持,而是當 agent 開始跨網域、跨服務、跨代理彼此委派與組合時,局部失誤會不會沿著整條信任鏈擴散成系統性事故。

這篇不是在發明某一種新攻擊,也不是在做又一個 benchmark。它比較像是一篇轉場很關鍵的 survey:作者要做的,不只是整理 agent security,而是主張我們正在從「secure agentic AI」走向「secure agentic web」。而這個轉變最麻煩的地方在於,安全問題不再只是單機模型對單機工具,而是開始包含:

  • delegation chain 會不會把錯誤一路傳下去
  • cross-domain interaction 會不會讓本來局部可控的風險跨系統放大
  • protocol-mediated ecosystem 會不會讓第三方 service、tool、agent 變成新的系統性弱點

換句話說,這篇 paper 真正想提醒的是:agent 一旦長成生態系,安全也不能再只看單一 agent 本身,而要開始用網路化、協定化、供應鏈化的視角重畫邊界。

這篇論文在處理什麼核心問題?

作者的出發點很清楚。傳統 LLM 安全常常聚焦在:

  • 模型會不會胡說八道
  • 有沒有 jailbreak
  • 輸出是否 unsafe

但當 LLM 變成 agent 之後,問題已經不是「它說錯什麼」,而是「它會做錯什麼」。因為 agent 具備:

  • planning 能力
  • memory 與持久狀態
  • 工具與 API 呼叫能力
  • 對外部網頁、文件、服務的互動能力

所以風險會從單純文字輸出,升級成真實世界副作用:發信、下單、改設定、調資料、呼叫其他服務、委派給其他 agent。作者認為,這還只是第一階段。下一步更棘手的是 Agentic Web:也就是 agent 不再只是單點系統,而是作為使用者代理、服務代理、工具代理、協定節點,彼此交換上下文、能力與任務。

這讓安全問題產生三個質變:

  1. 威脅開始網路化:局部 compromise 可能沿 delegation chain 傳播。
  2. 信任開始程式化:identity、authorization、provenance 不再是人類默契,而是機器對機器必須明確表達的 primitive。
  3. 攻擊面開始協定化:風險不只在 model 與 prompt,而是在工具生態、API orchestration、MCP 類協定與 service composition。

這篇 paper 最重要的貢獻:把威脅分類和 agent pipeline 對齊

這篇 survey 的一個優點,是它沒有把風險清單寫得很散,而是沿著 agent 的元件與資料流來整理。作者把威脅大致分成六類:

  • Prompt Abuse
  • Environment Injection
  • Memory Attacks
  • Toolchain Abuse
  • Model Tampering
  • Agent Network Attacks

這個分類的價值,在於它把很多人平常零散提到的風險,重新壓回一個系統圖裡。你不再只是說「有 prompt injection」或「tool 很危險」,而是能更清楚看見:攻擊者到底是在 user input、environment、memory、tool interface、model supply chain,還是 agent-to-agent communication 哪一層施力。

1. Prompt Abuse:問題不只是輸入髒,而是任務控制權被重新詮釋

這部分不新,但作者的 framing 很重要。Prompt abuse 在 agent 裡比在 chatbot 更危險,因為一旦 prompt 成功劫持 planning,後面接的就不是一句奇怪回答,而可能是一串真實操作。

作者特別強調,到 Agentic Web 場景後,prompt abuse 不只會出現在 user 對 agent 說的話裡,也會出現在 agent 彼此的 delegation message。也就是說,攻擊者不一定直接打前線 agent;只要能污染某一跳的任務描述與限制條件,就可能把錯誤意圖一路帶進多跳工作流。

2. Environment Injection:真正危險的是不可信內容開始成為控制訊號

這篇論文把 indirect prompt injection / environment injection 放得很核心,這點我很認同。因為 agent 跟一般模型最大的不同,就是它必須大量閱讀外部世界:

  • 網頁
  • 文件
  • email
  • UI 元素
  • 第三方服務回傳內容

一旦這些內容可被惡意構造,agent 看到的就不再只是資訊,而是可能變成隱性控制流。作者進一步指出,在 Agentic Web 裡,這種注入的擴散性更強:某個 agent 讀到髒內容後,不只自己被影響,還可能把經過摘要、抽取、轉述後的污染內容再餵給其他 agent,於是形成多跳傳播。

這裡真正值得記住的一句話是:在 agent 系統裡,untrusted content 不是單純輸入資料,它可能就是未經授權的控制面。

3. Memory Attacks:一次污染,長期生效

這篇 survey 也很清楚地把 memory 問題放到獨立一類。這很重要,因為很多團隊還是會下意識把 prompt injection 當成一次性事件;但只要 agent 會把結果寫回 memory、knowledge base 或檢索層,攻擊就可能從短期偏移變成長期駐留。

作者點出的重點包括:

  • memory poisoning 會長時間影響後續 planning
  • 共享 knowledge base 讓一次污染變成多次重用
  • 隱私資料若被寫入長期記憶,也會放大後續洩漏面

這個觀點對實務特別重要。因為很多 agent 防禦仍停留在「當下這輪有沒有擋住」,但作者提醒你:真正麻煩的往往不是當下,而是被寫進去以後,之後每一輪都可能再被拿出來。

4. Toolchain Abuse:從語言錯誤升級成行為錯誤

作者把 tool / API 這層描述得很準:工具是 agent 從語言走向現實影響的轉換器。只要這層出問題,原本看似 harmless 的語言偏差,就可能被翻譯成真正的副作用。

這裡的風險包括:

  • 惡意或被污染的 tool output
  • 不安全的 tool composition
  • 第三方 MCP / orchestration component 帶來的 supply-chain 風險
  • trust 與 authorization 不匹配,導致 agent 拿到超出原意的能力

我覺得這篇 paper 的強項,是它把這些問題直接往 Agentic Web 推進:在 web-scale agent ecosystem 裡,工具問題本質上會更像供應鏈問題,而不是單一 function call 問題。 你信任的是整條服務鏈,不只是某個 API endpoint。

5. Model Tampering:有些風險不是 runtime 看不看得見,而是供應鏈本身就埋了雷

作者也保留了一塊給 model tampering / backdoor。雖然這不是整篇最長的一段,但它扮演的角色很重要:提醒讀者,並不是所有風險都能靠 runtime monitoring 解掉。

如果模型本身就被植入條件觸發的異常行為,那麼很多問題只會在特定 workflow、特定 deployment state、特定上下文下才出現。這使得:

  • 測試很難完整覆蓋
  • 事後歸因更困難
  • model / plugin / provider selection 也變成供應鏈決策

也就是說,Agentic Web 要處理的不只是工具供應鏈,也包括模型供應鏈。

6. Agent Network Attacks:這篇最值得看的新重點

我認為整篇最有價值的地方,就在這裡。很多 paper 會講單一 agent 的 robustness,但這篇很明確地說:當 agent 開始互相溝通,輸出會變成別人的輸入,於是 injection、manipulation、trust mismatch 也會跟著沿網路拓樸擴散。

這代表我們必須從單點安全,升級成:

  • 分析 communication channel
  • 分析 delegation graph
  • 分析 trust propagation path
  • 分析 cascading failure 可能怎麼形成

這個視角非常關鍵。因為未來真正的 agent 事故,很可能不會長得像「某個模型答錯一句話」,而更像是:某個上游 agent 被輕微污染,接著把有問題的意圖、摘要、能力宣告或工具結果一路傳給其他代理,最後在下游某個擁有真實執行權的節點爆炸。

作者對防禦怎麼看?重點不是單招,而是分層防禦

在防禦面,作者整理了幾類典型策略:

  • Prompt Hardening:減少顯性 prompt 攻擊成功率
  • Safety-aware Decoding / Model Robustness:改善模型對危險內容的穩健性
  • Privilege Control for Tools and APIs:限制 agent 真正能做的事
  • Runtime Monitoring:在執行期觀察異常行為與危險流量
  • Continuous Red-Teaming:用持續對抗方式找新型風險
  • Protocol-level Security:在 agent-to-agent / agent-to-service interaction 裡補 identity、authorization、provenance、audit 等機制

這裡的重點不是哪一招最強,而是作者反覆在暗示:Agentic Web 的風險是組合型的,所以防禦也必須是組合型的。 只靠 prompt hardening 不夠,只靠 runtime guardrail 不夠,只靠協定簽章也不夠。因為真正的風險來自多層交互作用與跨邊界傳播。

這篇 paper 對 Agentic Web 提了哪些更難、但也更重要的問題?

作者最後把焦點拉到 web-scale deployment,點出幾個我認為很關鍵的開放問題:

  • Interoperable identity and authorization:不同 agent、不同服務、不同網域之間,怎麼建立能互通又不會過度授權的身份與權限模型?
  • Provenance and traceability:任務經過多跳委派後,能不能還原資料與決策是從哪裡來、被誰改過、最後由誰執行?
  • Ecosystem-level response:如果風險不是單點 bug,而是整個生態系的組合性問題,要怎麼做跨服務的 incident response?
  • Scalable evaluation under adaptive adversaries:面對會調整策略的攻擊者,怎麼做真正可擴展、而且不會只是在實驗室裡好看的評測?

這幾個問題其實都指向同一件事:agent security 正在從模型安全,變成系統安全;從系統安全,再變成生態系安全。

我怎麼看這篇論文的價值?

我覺得這篇 paper 最值得讀的地方,不在於它列了多少攻擊,而在於它幫你把近期 agentic security 文獻重新排序。讀完之後,你比較不容易再把:

  • prompt injection
  • memory poisoning
  • tool misuse
  • MCP / protocol risk
  • multi-agent manipulation

看成互相獨立的主題。它們其實更像是同一件事在不同層級上的表現:不可信輸入如何穿越多個 trust boundary,最後變成被系統執行的有效控制。

這篇的另一個價值,是把「Agentic Web」這個詞從行銷口號拉回工程語境。它不是在浪漫化 agent 互聯,而是在提醒你:只要 agent 彼此可組合、可委派、可呼叫、可跨網域操作,安全設計就得升級成網路與協定等級,而不是只停在單一應用程式的 guardrail。

限制也很明確

當然,這篇本質上還是 survey / framing paper,所以它的限制也很清楚:

  • 它沒有提出一套新的可直接部署系統
  • 很多內容是在整理既有文獻,而不是做全新實證
  • Agentic Web 的很多系統性問題,目前仍處於概念整理與設計原則階段

但我反而覺得這是它的價值所在。因為現在這個領域真正缺的,常常不是再多一個單點 exploit demo,而是有人把整張地圖攤開,告訴你:接下來該把哪幾條線接起來,否則所有局部防禦最後都可能只是各自為戰。

總結

From Secure Agentic AI to Secure Agentic Web 這篇論文真正重要的,不是再一次說 agent 很危險,而是把下一階段的安全問題講得更準:

當 agent 從單點應用,長成跨服務、跨網域、跨代理協作的生態系時,局部安全已經不夠,真正需要被保護的是整條可傳播、可組合、可擴散的信任鏈。

如果把它壓成最白話的一句話,那就是:

Agentic Web 的風險,不只是某個 agent 會不會犯錯,而是某個小錯誤會不會順著 delegation、protocol 與 toolchain 一路長成整個系統都吃到的事故。

這篇很適合放進最近 sectools.tw 這條主線裡,因為它剛好把前面那些看似分散的拼圖——prompt、memory、tools、protocol、runtime、multi-agent——全部接回同一個更大的框架:可信任的 agent,不該只是在單機上看起來安全,而是要在整個可互動、可擴散、可委派的網路化環境裡,仍然守得住邊界。

You may also like