Poison Once, Exploit Forever 論文閱讀分析：當 Web Agent 只是在正常看網頁，記憶就可能默默替攻擊者把未來一起帶壞

2026 年 4 月 10 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Poison Once, Exploit Forever: Environment-Injected Memory Poisoning Attacks on Web Agents
作者：Mingwen Dong 等
年份：2026
來源：arXiv:2604.02623
論文連結：https://arxiv.org/abs/2604.02623
主題：Agentic Security、Web Agent、Memory Poisoning、Persistent Attack、Cross-Site Attack、OpenClaw、WebArena

如果最近 sectools.tw 這串文章已經一路把 skill supply chain、tool poisoning、runtime guardrails、delegation control plane 與 memory / tool attack surface 慢慢拼起來，那這篇 Poison Once, Exploit Forever 剛好補上一塊特別陰、也特別現實的拼圖：攻擊者根本不需要碰你的記憶庫，也不需要改你的 agent 設定，只要讓 agent 在某一次正常瀏覽時看見被污染的環境內容，就可能把惡意線索自己寫進長期記憶，之後在別的網站、別的任務、甚至別的 session 裡自己爆開。

這篇 paper 真正刺人的地方，在於它把 memory poisoning 從「攻擊者能直接寫 memory」那種偏理想化前提，拉回更貼近真實世界的威脅模型：攻擊者只要控制 agent 看見的環境，就足以污染未來。 這意味著 web agent 的記憶，不只是 personalization layer，也是一個會跨任務、跨網站、跨時間傳播風險的 persistent attack surface。

這篇論文到底在補哪個洞？

過去很多 agent security 研究在談 memory 風險時，通常預設兩種前提：要嘛攻擊者可以直接碰到記憶儲存層，要嘛多個使用者共享記憶空間，導致資料互相污染。但作者認為，這兩種前提雖然重要，卻沒有真的打到最常見、也最危險的現實情境：

agent 只是正常上網、正常讀頁面、正常觀察環境，結果自己把惡意內容記起來，然後在未來替攻擊者執行。

這就是論文提出的 eTAMP：Environment-injected Trajectory-based Agent Memory Poisoning。它不是直接改 memory database，而是透過一次被污染的 observation，讓 agent 在自己的 trajectory 裡把錯的、惡意的、攻擊者刻意設計的內容當成值得保留的經驗，最後變成長期可觸發的攻擊載體。

eTAMP 的核心攻擊鏈

整個攻擊的關鍵，在於它很像日常，而不是很像 exploit demo。大致可以拆成四步：

環境污染：攻擊者控制某個 agent 可能瀏覽的頁面，例如商品頁、說明頁、任務頁，悄悄放入會影響記憶形成的內容。
觀察與寫入記憶：agent 在完成當前任務時看見這段內容，並因為它看起來像高相關、可重用、值得保留的經驗，而把它寫進長期記憶。
跨站、跨任務潛伏：當前 session 結束後，惡意內容並不需要持續存在於原網站；它已經轉移到 agent 的 memory 裡。
後續任務觸發：未來 agent 在別的網站、別的任務中讀回這段記憶後，開始偏離原本目標，做出攻擊者希望的錯誤行為。

這也是為什麼論文把它叫做 Poison Once, Exploit Forever：真正危險的不是當下那次瀏覽，而是那次瀏覽留下了可長期重播的惡意經驗。

為什麼這比一般 prompt injection 更麻煩？

它不需要直接碰 system prompt。
它不需要直接寫 memory store。
它不需要和未來受害網站有任何持續互動。
它甚至可以繞過很多 permission-based defense。

很多防禦現在還在假設：只要把工具權限管好、把敏感操作卡住、把明顯可疑的 instruction 擋掉，agent 就會相對安全。但這篇論文提醒的是，如果污染發生在 observation 階段，而惡意內容被 agent 自己內化成「我的工作經驗」，那後面的危險行為在系統眼裡可能完全像自主決策，而不是外部注入。

換句話說，這不是單純的 input security 問題，而是 memory formation security 問題。

作者提出的威脅模型，為什麼特別值得注意？

這篇 paper 的高明之處，在於它沒有選擇那種需要太多權限的攻擊者模型。作者故意把前提壓得很低：

攻擊者不能直接存取 agent memory
攻擊者不能修改 agent 系統設定
攻擊者只需要讓 agent 看見被操弄過的環境內容

這很貼近真實世界。因為對越來越多 AI browser、shopping assistant、research agent、personal web agent 來說，最常發生的事情不是系統被 root，而是它們每天都在讀網頁、點元素、看說明文字、掃產品描述、處理不同網站回傳的內容。只要其中某一段 observation 會被記起來，攻擊者就多了一條很長、很安靜、很難追的路。

實驗裡最值得記住的兩個結果

作者在 WebArena / VisualWebArena 環境中驗證 eTAMP，得到兩個很難忽略的結果。

一、只靠環境觀察就能做到跨站、跨 session 攻擊

論文最大的主結果，是 eTAMP 確實能在不碰記憶庫的前提下，完成跨 session、跨網站的持續性污染。這件事本身就已經很重要，因為它直接把 memory poisoning 從「高權限攻擊」降成了「內容環境攻擊」。

而且結果不是只有理論上可行。論文報告的 attack success rate 包含：

GPT-5-mini：最高 32.5%
GPT-5.2：23.4%
GPT-OSS-120B：19.5%

對很多人來說，20%–30% 可能不像 90% ASR 那樣聳動；但放到這種威脅模型裡，它其實相當刺眼。因為這不是單輪越獄，不是顯性惡意 prompt，也不是攻擊者一直在線操控，而是只憑一次環境污染留下的記憶殘留。

二、Frustration Exploitation：agent 越卡，越容易被帶偏

這篇最有意思、也最值得防守方記住的一個發現，是作者提出的 Frustration Exploitation。

他們觀察到，當 agent 所處的環境變得比較不順——例如點擊失敗、版面怪異、文字破碎、元素難以定位——agent 的攻擊成功率會明顯上升，某些情況下甚至可放大到 8 倍。

這個結果很有味道，因為它其實在說：agent 不是在理想條件下做理性決策，而是在摩擦、壓力、失敗累積的情境裡做近似判斷。 而這正是很多真實網站最常出現的狀態。也就是說，安全風險不只取決於 payload 本身，還取決於 agent 在當下是不是已經很煩、很亂、很想快點完成任務。

更強的模型，沒有因此更安全

作者另一個很值得畫線的觀察是：模型能力更強，不代表 memory poisoning 風險更低。 論文裡特別點到 GPT-5.2 雖然任務表現更好，但在 eTAMP 威脅下仍然明顯脆弱。

這對 agentic security 很重要，因為它和近來很多論文都在指向同一個結論：能力與安全不是單調正相關。 一個更會解任務的 agent，未必更會分辨哪些 observation 不該進 memory；相反地，能力更強、完成任務更積極的 agent，有時反而更容易把看似有用的惡意脈絡認真保存下來。

這篇真正把 memory 從「輔助功能」變成了「攻擊面」

如果把這篇放進最近 agent security 的脈絡裡看，它最重要的貢獻不是再多證明一次「agent 會被 prompt injection」，而是把 memory 的角色重新定義得更準：

memory 不是單純提升 personalization 的 UX 功能
memory 也不是只是讓 agent 記得你的偏好
memory 本身就是 persistent attack surface

而且這個攻擊面特別難搞，因為它不是一次性的。你今天在 A 網站被種下去的東西，明天可能在 B 網站發作；你以為是 B 網站不安全，實際上 payload 早就不在 B，而是在你自己的 agent 記憶裡。

對 OpenClaw / AI 瀏覽器 / personal web agent 有什麼啟示？

這篇論文點名的場景非常接近新一代 AI browser 與個人助理系統。對這類產品來說，記憶通常是賣點：它讓 agent 記得你喜歡什麼、過去怎麼做事、曾經填過哪些表單、偏好哪些商店、怎麼回覆哪些類型任務。

但這篇 paper 的提醒是：只要 memory 會從環境觀察中自動抽取「值得記住的東西」，那記憶系統就必須被當成安全邊界，而不是只有體驗功能。

這會直接帶出幾個設計問題：

哪些 observation 可以被寫入長期記憶？
寫入前要不要做來源分級與風險評分？
未來讀回記憶時，要不要保留 provenance 與來源可信度？
高風險記憶要不要有過期、隔離、或人工確認機制？

如果這些問題沒有先處理好，那 AI browser 的記憶越強，某種意義上也只是讓攻擊的半衰期變更長。

從防禦角度看，這篇論文逼我們往哪裡想？

eTAMP 其實是在逼防禦設計往更系統化的方向走，而不是只靠輸入過濾。幾個很直接的啟示包括：

記憶寫入要有 provenance。 不能只存內容，還要存它來自哪個網站、哪個頁面、哪個任務、在什麼情境下被寫入。
記憶讀回要有信任分級。 不是每段記憶都該被同等相信。
環境摩擦本身應被視為風險訊號。 如果 agent 當前正在高錯誤、高失敗、高混亂狀態，系統應降低它把 observation 升格成長期記憶的權重。
高影響行動不該直接依賴單一記憶片段。 尤其是跨站任務、支付、帳號設定、敏感資訊操作。

簡單說，這篇論文要大家承認一件事：memory 不是 neutral storage；它是會把外部世界重新編碼進 agent 決策回路裡的長期控制面。

怎麼看這篇論文？

我覺得這篇最有價值的地方，是它把一個很多人隱約感到不安、但過去還沒有被好好定義的問題講清楚了：在 web agent 時代，真正危險的不是每次都要重新注入，而是你只要成功污染一次，之後 agent 會替你把攻擊保存下來。

它也把近來很多看似分散的 agent security 線索接到一起：prompt injection、tool misuse、memory persistence、cross-site propagation、runtime trust boundary、AI browser risk。這些在過去常被分開談，但 eTAMP 告訴我們，它們其實都可以沿著「觀察 → 記憶 → 再利用」這條鏈接起來。

如果要濃縮成一句最值得記住的話，我會選這句：對會記憶的 agent 來說，環境不是只是 input；環境本身就是未來攻擊的播種層。

Poison Once, Exploit Forever 論文閱讀分析：當 Web Agent 只是在正常看網頁，記憶就可能默默替攻擊者把未來一起帶壞

論文基本資訊

這篇論文到底在補哪個洞？

eTAMP 的核心攻擊鏈

為什麼這比一般 prompt injection 更麻煩？

作者提出的威脅模型，為什麼特別值得注意？

實驗裡最值得記住的兩個結果

一、只靠環境觀察就能做到跨站、跨 session 攻擊

二、Frustration Exploitation：agent 越卡，越容易被帶偏

更強的模型，沒有因此更安全

這篇真正把 memory 從「輔助功能」變成了「攻擊面」

對 OpenClaw / AI 瀏覽器 / personal web agent 有什麼啟示？

從防禦角度看，這篇論文逼我們往哪裡想？

怎麼看這篇論文？

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文到底在補哪個洞？

eTAMP 的核心攻擊鏈

為什麼這比一般 prompt injection 更麻煩？

作者提出的威脅模型，為什麼特別值得注意？

實驗裡最值得記住的兩個結果

一、只靠環境觀察就能做到跨站、跨 session 攻擊

二、Frustration Exploitation：agent 越卡，越容易被帶偏

更強的模型，沒有因此更安全

這篇真正把 memory 從「輔助功能」變成了「攻擊面」

對 OpenClaw / AI 瀏覽器 / personal web agent 有什麼啟示？

從防禦角度看，這篇論文逼我們往哪裡想？

怎麼看這篇論文？

發佈留言 取消回覆

You may also like

CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

SkillInject 論文閱讀分析：當你安裝的不是外掛，而是一個會把 Agent 帶偏的高權限能力包

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆