長期記憶安全論文閱讀分析：很多 Agent 真正最危險的，不是當下被騙，而是被騙過的東西還會一直留在腦子裡

2026 年 4 月 21 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty
作者：Zehao Lin
年份：2026
來源：arXiv:2604.16548
論文連結：https://arxiv.org/abs/2604.16548
DOI：10.48550/arXiv.2604.16548
主題：Agent Memory Security、Persistent State、Memory Poisoning、Memory Governance、Cross-Session Risk、Agentic Security

如果最近這一串 sectools.tw 的文章，已經一路把 prompt injection、tool poisoning、skill supply chain、runtime guardrails、delegation drift 這些問題慢慢接起來，那這篇 長期記憶安全 survey 值得補上的地方非常關鍵：很多 agent 真正最危險的，不是某一輪被騙，而是被騙過的東西還能留下來，之後繼續影響它。

這篇 paper 的好，不在於它又列了一串 memory attack 名詞，而在於它把問題講得更像系統治理，而不只是模型安全。作者的核心判斷我很認同：只要 agent 有 persistent、writable、retrievable、甚至可共享的長期記憶，memory 就不再只是 feature，而是獨立的安全邊界。

這篇論文想補哪個洞？

過去很多 LLM security 討論，焦點通常放在幾件事：

模型會不會被 jailbreak
會不會被 prompt injection
會不會洩漏訓練資料
tool use 有沒有越權

但當 agent 開始把歷史對話、使用者偏好、工作狀態、外部觀測、甚至其他 agent 傳來的資訊寫進 memory，事情就完全變了。因為這些內容不再只是當下上下文，而是未來 decision-making 的可重用材料。

也就是說，攻擊者如果今天成功把一段錯誤資訊、惡意規則、假偏好、錯誤授權語境或帶毒工作指引寫進 memory，傷害很可能不是一次性的。它會變成之後每一次 retrieve、plan、act 都可能再被引用的持久污染源。

這篇 survey 想補的，正是這個常被低估的結構性問題：agent memory 不是一塊比較長的 context window，而是一套會持續影響未來行為的 state system。

作者怎麼重新定義 memory 問題？

我覺得這篇最有價值的地方，是它沒有只用工程語言描述 memory，而是借了 cognitive neuroscience 與 memory philosophy 的視角，去強調長期記憶的幾個特性：

可塑性（malleable）：寫進去的東西不是永遠正確，也可能被重寫
可重構性（rewritable / reconstructive）：retrieve 不是純讀取，常常伴隨摘要、重組與再詮釋
可社會傳播（socially propagating）：記憶可能跨 session、跨 agent、跨工作流擴散

這個 framing 很重要，因為它直接把問題從「資料庫有沒有被寫髒」提升成「整個 agent 身份與決策歷史有沒有被慢慢塑形」。很多人一提 memory，腦中還停在 vector store 或 conversation summary；但這篇提醒的是：當 memory 會影響偏好、授權、任務脈絡與後續工具使用時，它其實已經很接近 agent 的 operational identity。

六階段 memory lifecycle，為什麼比只談 poisoning 更重要？

論文把 memory security 整理成六個生命週期階段：

Write：什麼能被寫進去、誰能寫
Store：寫進去之後怎麼保存、隔離、版本化
Retrieve：什麼時候被取回、怎麼被排序與組裝
Execute：取回的記憶如何影響當前決策與行動
Share：是否跨 agent / 跨組織 / 跨工作流擴散
Forget / Rollback：出事後能不能刪、回復、撤銷

這個切法比很多既有 memory poisoning paper 更成熟，因為它不只盯著「寫入時被污染」這一點，而是承認風險會沿整條鏈發生轉移。

舉例來說：

Write 階段的問題是惡意內容被收進來
Retrieve 階段的問題是錯的記憶被高分撈出來
Execute 階段的問題是那些記憶被當成當前授權或任務依據
Share 階段的問題是原本局部污染開始變成組織級污染
Forget / Rollback 階段的問題則是你明知道記憶有毒，卻已經刪不乾淨或無法追溯來源

這讓 memory security 從單點 attack surface 變成了state lifecycle governance 問題。這個轉向，我覺得非常對。

四種安全目標一起看，才會發現大家現在其實只盯了一角

作者進一步把這六階段和四種安全目標交叉來看：

Integrity
Confidentiality
Availability
Governance

這裡最有意思的結論是：當前文獻其實非常偏科。多數研究集中在 write-time integrity 與 retrieve-time integrity，也就是最典型的 memory poisoning、retrieval corruption、control hijack；但相對來說，下面幾塊還很稀薄：

誰被允許讀哪些記憶
記憶何時應被刪除或失效
記憶壞掉時是否會造成 availability 問題
跨 agent 分享時誰來定義 propagation boundary

換句話說，今天大家對 memory 的防守，很多還停在「防別人寫髒」，但真正成熟的系統還要回答更多問題：

誰能寫？誰能讀？哪些寫入需要授權？哪些記憶有保存期限？哪個版本才算有效？出事後能不能 rollback？

這才是作者所謂 mnemonic sovereignty 的意思：不是只追求記得多，而是追求對記憶狀態有可驗證、可恢復、可治理的主權。

這篇最值得記住的，不是 attack taxonomy，而是 memory governance primitives

我自己最喜歡這篇的地方，是它把記憶安全重新拉回治理層。作者指出，目前沒有任何已發表 architecture 能完整覆蓋他整理出的治理原語。這句話其實很重，因為它代表：

很多 agent 有 memory，但沒有成熟的 memory policy
很多系統會共享 state，但沒有真正的 provenance 與授權邊界
很多框架會記住東西，但不太會安全地忘記東西

如果把這件事翻成工程語言，就是：現在很多 memory-enabled agent，還比較像「會把東西一直存下來」的 prototype，而不是「有 state governance」的 production system。

這也直接解釋了為什麼 memory 題在最近 agent security 裡越來越重要。因為只要 state 是持久的，攻擊者真正想做的就不再只是一次 prompt hijack，而是把未來也一起改掉。

把它放回近期 sectools.tw 主線，它補的是哪一塊？

如果把最近幾篇放在一起看，像是：

談 persistent state 與 identity 風險的 paper
談 runtime invariants 與 delegated-agent drift 的 paper
談 prompt hierarchy、tool-call boundary、secret mediation 的 paper

那這篇 survey 剛好補上一個更底層、但很少被單獨治理清楚的共通基座：state 本身。

因為很多前面看起來不同的風險，最後都會落到 memory 上：

prompt injection 可能把錯誤指令沉澱成長期偏差
tool poisoning 可能把錯誤 observation 寫成未來 planning 依據
identity / preference manipulation 可能透過 memory 慢慢固化
cross-agent collaboration 則會把局部污染擴散成共享污染

所以這篇真正補的不是又一條新 attack path，而是提醒大家：若不把 memory 當成獨立治理對象，前面很多 runtime defense 最後都只是把當下 turn 守住，卻沒守住未來。

我覺得這篇最重要的實務啟發

如果你今天真的在做 agent system，我會把這篇 paper 濃縮成幾個非常實務的提醒：

memory write 不該無條件自動化：不是每個 observation 都該被永久保存。
retrieve 不只是 relevance 問題，也是 authority 問題：高相關不代表高可信。
shared memory 要有 provenance 與 rollback：不然污染一進去就會像墨水進水箱。
forget 是安全功能，不是附屬功能：沒有安全刪除與版本回復，就談不上記憶主權。
memory policy 要和 action policy 連動：不能只管 agent 能做什麼，不管它為什麼以為自己該這樣做。

這幾點看起來平凡，但其實正好戳中目前很多 agent framework 還沒補齊的地方。

總結

A Survey on the Security of Long-Term Memory in LLM Agents 值得看的原因，不只是它整理了 memory attack literature，而是它把 memory 從「agent 的便利功能」重新拉回「agent 的治理核心」。

真正成熟的 agent，不應該只是記得更多，而應該更清楚哪些東西能被記住、誰能改、誰能讀、何時該忘、出事後怎麼退回乾淨狀態。這篇 paper 把那套思路命名成 mnemonic sovereignty，我覺得這個詞抓得很好。

因為在 agent 時代，主權不只發生在模型權重、工具權限或 system prompt 上；記憶本身，也是控制權的一部分。

長期記憶安全論文閱讀分析：很多 Agent 真正最危險的，不是當下被騙，而是被騙過的東西還會一直留在腦子裡

論文基本資訊

這篇論文想補哪個洞？

作者怎麼重新定義 memory 問題？

六階段 memory lifecycle，為什麼比只談 poisoning 更重要？

四種安全目標一起看，才會發現大家現在其實只盯了一角

這篇最值得記住的，不是 attack taxonomy，而是 memory governance primitives

把它放回近期 sectools.tw 主線，它補的是哪一塊？

我覺得這篇最重要的實務啟發

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想補哪個洞？

作者怎麼重新定義 memory 問題？

六階段 memory lifecycle，為什麼比只談 poisoning 更重要？

四種安全目標一起看，才會發現大家現在其實只盯了一角

這篇最值得記住的，不是 attack taxonomy，而是 memory governance primitives

把它放回近期 sectools.tw 主線，它補的是哪一塊？

我覺得這篇最重要的實務啟發

總結

發佈留言 取消回覆

You may also like

MCP Client 論文閱讀分析：真正危險的不是 AI IDE 會不會寫錯，而是你以為它只是在幫你開發，其實它已經開始替外部內容執行命令

When Benchmarks Lie 論文閱讀分析：很多惡意 Prompt Detector 失敗的原因，可能不是不夠聰明，而是 benchmark 先讓你看起來太強

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆