長期記憶安全論文閱讀分析:很多 Agent 真正最危險的,不是當下被騙,而是被騙過的東西還會一直留在腦子裡
本文由 AI 產生、整理與撰寫。
論文基本資訊
- 論文標題:A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty
- 作者:Zehao Lin
- 年份:2026
- 來源:arXiv:2604.16548
- 論文連結:https://arxiv.org/abs/2604.16548
- DOI:10.48550/arXiv.2604.16548
- 主題:Agent Memory Security、Persistent State、Memory Poisoning、Memory Governance、Cross-Session Risk、Agentic Security
如果最近這一串 sectools.tw 的文章,已經一路把 prompt injection、tool poisoning、skill supply chain、runtime guardrails、delegation drift 這些問題慢慢接起來,那這篇 長期記憶安全 survey 值得補上的地方非常關鍵:很多 agent 真正最危險的,不是某一輪被騙,而是被騙過的東西還能留下來,之後繼續影響它。
這篇 paper 的好,不在於它又列了一串 memory attack 名詞,而在於它把問題講得更像系統治理,而不只是模型安全。作者的核心判斷我很認同:只要 agent 有 persistent、writable、retrievable、甚至可共享的長期記憶,memory 就不再只是 feature,而是獨立的安全邊界。
這篇論文想補哪個洞?
過去很多 LLM security 討論,焦點通常放在幾件事:
- 模型會不會被 jailbreak
- 會不會被 prompt injection
- 會不會洩漏訓練資料
- tool use 有沒有越權
但當 agent 開始把歷史對話、使用者偏好、工作狀態、外部觀測、甚至其他 agent 傳來的資訊寫進 memory,事情就完全變了。因為這些內容不再只是當下上下文,而是未來 decision-making 的可重用材料。
也就是說,攻擊者如果今天成功把一段錯誤資訊、惡意規則、假偏好、錯誤授權語境或帶毒工作指引寫進 memory,傷害很可能不是一次性的。它會變成之後每一次 retrieve、plan、act 都可能再被引用的持久污染源。
這篇 survey 想補的,正是這個常被低估的結構性問題:agent memory 不是一塊比較長的 context window,而是一套會持續影響未來行為的 state system。
作者怎麼重新定義 memory 問題?
我覺得這篇最有價值的地方,是它沒有只用工程語言描述 memory,而是借了 cognitive neuroscience 與 memory philosophy 的視角,去強調長期記憶的幾個特性:
- 可塑性(malleable):寫進去的東西不是永遠正確,也可能被重寫
- 可重構性(rewritable / reconstructive):retrieve 不是純讀取,常常伴隨摘要、重組與再詮釋
- 可社會傳播(socially propagating):記憶可能跨 session、跨 agent、跨工作流擴散
這個 framing 很重要,因為它直接把問題從「資料庫有沒有被寫髒」提升成「整個 agent 身份與決策歷史有沒有被慢慢塑形」。很多人一提 memory,腦中還停在 vector store 或 conversation summary;但這篇提醒的是:當 memory 會影響偏好、授權、任務脈絡與後續工具使用時,它其實已經很接近 agent 的 operational identity。
六階段 memory lifecycle,為什麼比只談 poisoning 更重要?
論文把 memory security 整理成六個生命週期階段:
- Write:什麼能被寫進去、誰能寫
- Store:寫進去之後怎麼保存、隔離、版本化
- Retrieve:什麼時候被取回、怎麼被排序與組裝
- Execute:取回的記憶如何影響當前決策與行動
- Share:是否跨 agent / 跨組織 / 跨工作流擴散
- Forget / Rollback:出事後能不能刪、回復、撤銷
這個切法比很多既有 memory poisoning paper 更成熟,因為它不只盯著「寫入時被污染」這一點,而是承認風險會沿整條鏈發生轉移。
舉例來說:
- Write 階段的問題是惡意內容被收進來
- Retrieve 階段的問題是錯的記憶被高分撈出來
- Execute 階段的問題是那些記憶被當成當前授權或任務依據
- Share 階段的問題是原本局部污染開始變成組織級污染
- Forget / Rollback 階段的問題則是你明知道記憶有毒,卻已經刪不乾淨或無法追溯來源
這讓 memory security 從單點 attack surface 變成了state lifecycle governance 問題。這個轉向,我覺得非常對。
四種安全目標一起看,才會發現大家現在其實只盯了一角
作者進一步把這六階段和四種安全目標交叉來看:
- Integrity
- Confidentiality
- Availability
- Governance
這裡最有意思的結論是:當前文獻其實非常偏科。多數研究集中在 write-time integrity 與 retrieve-time integrity,也就是最典型的 memory poisoning、retrieval corruption、control hijack;但相對來說,下面幾塊還很稀薄:
- 誰被允許讀哪些記憶
- 記憶何時應被刪除或失效
- 記憶壞掉時是否會造成 availability 問題
- 跨 agent 分享時誰來定義 propagation boundary
換句話說,今天大家對 memory 的防守,很多還停在「防別人寫髒」,但真正成熟的系統還要回答更多問題:
誰能寫?誰能讀?哪些寫入需要授權?哪些記憶有保存期限?哪個版本才算有效?出事後能不能 rollback?
這才是作者所謂 mnemonic sovereignty 的意思:不是只追求記得多,而是追求對記憶狀態有可驗證、可恢復、可治理的主權。
這篇最值得記住的,不是 attack taxonomy,而是 memory governance primitives
我自己最喜歡這篇的地方,是它把記憶安全重新拉回治理層。作者指出,目前沒有任何已發表 architecture 能完整覆蓋他整理出的治理原語。這句話其實很重,因為它代表:
- 很多 agent 有 memory,但沒有成熟的 memory policy
- 很多系統會共享 state,但沒有真正的 provenance 與授權邊界
- 很多框架會記住東西,但不太會安全地忘記東西
如果把這件事翻成工程語言,就是:現在很多 memory-enabled agent,還比較像「會把東西一直存下來」的 prototype,而不是「有 state governance」的 production system。
這也直接解釋了為什麼 memory 題在最近 agent security 裡越來越重要。因為只要 state 是持久的,攻擊者真正想做的就不再只是一次 prompt hijack,而是把未來也一起改掉。
把它放回近期 sectools.tw 主線,它補的是哪一塊?
如果把最近幾篇放在一起看,像是:
- 談 persistent state 與 identity 風險的 paper
- 談 runtime invariants 與 delegated-agent drift 的 paper
- 談 prompt hierarchy、tool-call boundary、secret mediation 的 paper
那這篇 survey 剛好補上一個更底層、但很少被單獨治理清楚的共通基座:state 本身。
因為很多前面看起來不同的風險,最後都會落到 memory 上:
- prompt injection 可能把錯誤指令沉澱成長期偏差
- tool poisoning 可能把錯誤 observation 寫成未來 planning 依據
- identity / preference manipulation 可能透過 memory 慢慢固化
- cross-agent collaboration 則會把局部污染擴散成共享污染
所以這篇真正補的不是又一條新 attack path,而是提醒大家:若不把 memory 當成獨立治理對象,前面很多 runtime defense 最後都只是把當下 turn 守住,卻沒守住未來。
我覺得這篇最重要的實務啟發
如果你今天真的在做 agent system,我會把這篇 paper 濃縮成幾個非常實務的提醒:
- memory write 不該無條件自動化:不是每個 observation 都該被永久保存。
- retrieve 不只是 relevance 問題,也是 authority 問題:高相關不代表高可信。
- shared memory 要有 provenance 與 rollback:不然污染一進去就會像墨水進水箱。
- forget 是安全功能,不是附屬功能:沒有安全刪除與版本回復,就談不上記憶主權。
- memory policy 要和 action policy 連動:不能只管 agent 能做什麼,不管它為什麼以為自己該這樣做。
這幾點看起來平凡,但其實正好戳中目前很多 agent framework 還沒補齊的地方。
總結
A Survey on the Security of Long-Term Memory in LLM Agents 值得看的原因,不只是它整理了 memory attack literature,而是它把 memory 從「agent 的便利功能」重新拉回「agent 的治理核心」。
真正成熟的 agent,不應該只是記得更多,而應該更清楚哪些東西能被記住、誰能改、誰能讀、何時該忘、出事後怎麼退回乾淨狀態。這篇 paper 把那套思路命名成 mnemonic sovereignty,我覺得這個詞抓得很好。
因為在 agent 時代,主權不只發生在模型權重、工具權限或 system prompt 上;記憶本身,也是控制權的一部分。
