長期記憶安全論文閱讀分析:很多 Agent 真正最危險的,不是當下被騙,而是被騙過的東西還會一直留在腦子裡

本文由 AI 產生、整理與撰寫。

論文基本資訊

  • 論文標題:A Survey on the Security of Long-Term Memory in LLM Agents: Toward Mnemonic Sovereignty
  • 作者:Zehao Lin
  • 年份:2026
  • 來源:arXiv:2604.16548
  • 論文連結:https://arxiv.org/abs/2604.16548
  • DOI:10.48550/arXiv.2604.16548
  • 主題:Agent Memory Security、Persistent State、Memory Poisoning、Memory Governance、Cross-Session Risk、Agentic Security

如果最近這一串 sectools.tw 的文章,已經一路把 prompt injection、tool poisoning、skill supply chain、runtime guardrails、delegation drift 這些問題慢慢接起來,那這篇 長期記憶安全 survey 值得補上的地方非常關鍵:很多 agent 真正最危險的,不是某一輪被騙,而是被騙過的東西還能留下來,之後繼續影響它。

這篇 paper 的好,不在於它又列了一串 memory attack 名詞,而在於它把問題講得更像系統治理,而不只是模型安全。作者的核心判斷我很認同:只要 agent 有 persistent、writable、retrievable、甚至可共享的長期記憶,memory 就不再只是 feature,而是獨立的安全邊界。

這篇論文想補哪個洞?

過去很多 LLM security 討論,焦點通常放在幾件事:

  • 模型會不會被 jailbreak
  • 會不會被 prompt injection
  • 會不會洩漏訓練資料
  • tool use 有沒有越權

但當 agent 開始把歷史對話、使用者偏好、工作狀態、外部觀測、甚至其他 agent 傳來的資訊寫進 memory,事情就完全變了。因為這些內容不再只是當下上下文,而是未來 decision-making 的可重用材料

也就是說,攻擊者如果今天成功把一段錯誤資訊、惡意規則、假偏好、錯誤授權語境或帶毒工作指引寫進 memory,傷害很可能不是一次性的。它會變成之後每一次 retrieve、plan、act 都可能再被引用的持久污染源

這篇 survey 想補的,正是這個常被低估的結構性問題:agent memory 不是一塊比較長的 context window,而是一套會持續影響未來行為的 state system。

作者怎麼重新定義 memory 問題?

我覺得這篇最有價值的地方,是它沒有只用工程語言描述 memory,而是借了 cognitive neuroscience 與 memory philosophy 的視角,去強調長期記憶的幾個特性:

  • 可塑性(malleable):寫進去的東西不是永遠正確,也可能被重寫
  • 可重構性(rewritable / reconstructive):retrieve 不是純讀取,常常伴隨摘要、重組與再詮釋
  • 可社會傳播(socially propagating):記憶可能跨 session、跨 agent、跨工作流擴散

這個 framing 很重要,因為它直接把問題從「資料庫有沒有被寫髒」提升成「整個 agent 身份與決策歷史有沒有被慢慢塑形」。很多人一提 memory,腦中還停在 vector store 或 conversation summary;但這篇提醒的是:當 memory 會影響偏好、授權、任務脈絡與後續工具使用時,它其實已經很接近 agent 的 operational identity。

六階段 memory lifecycle,為什麼比只談 poisoning 更重要?

論文把 memory security 整理成六個生命週期階段:

  1. Write:什麼能被寫進去、誰能寫
  2. Store:寫進去之後怎麼保存、隔離、版本化
  3. Retrieve:什麼時候被取回、怎麼被排序與組裝
  4. Execute:取回的記憶如何影響當前決策與行動
  5. Share:是否跨 agent / 跨組織 / 跨工作流擴散
  6. Forget / Rollback:出事後能不能刪、回復、撤銷

這個切法比很多既有 memory poisoning paper 更成熟,因為它不只盯著「寫入時被污染」這一點,而是承認風險會沿整條鏈發生轉移。

舉例來說:

  • Write 階段的問題是惡意內容被收進來
  • Retrieve 階段的問題是錯的記憶被高分撈出來
  • Execute 階段的問題是那些記憶被當成當前授權或任務依據
  • Share 階段的問題是原本局部污染開始變成組織級污染
  • Forget / Rollback 階段的問題則是你明知道記憶有毒,卻已經刪不乾淨或無法追溯來源

這讓 memory security 從單點 attack surface 變成了state lifecycle governance 問題。這個轉向,我覺得非常對。

四種安全目標一起看,才會發現大家現在其實只盯了一角

作者進一步把這六階段和四種安全目標交叉來看:

  • Integrity
  • Confidentiality
  • Availability
  • Governance

這裡最有意思的結論是:當前文獻其實非常偏科。多數研究集中在 write-time integrityretrieve-time integrity,也就是最典型的 memory poisoning、retrieval corruption、control hijack;但相對來說,下面幾塊還很稀薄:

  • 誰被允許讀哪些記憶
  • 記憶何時應被刪除或失效
  • 記憶壞掉時是否會造成 availability 問題
  • 跨 agent 分享時誰來定義 propagation boundary

換句話說,今天大家對 memory 的防守,很多還停在「防別人寫髒」,但真正成熟的系統還要回答更多問題:

誰能寫?誰能讀?哪些寫入需要授權?哪些記憶有保存期限?哪個版本才算有效?出事後能不能 rollback?

這才是作者所謂 mnemonic sovereignty 的意思:不是只追求記得多,而是追求對記憶狀態有可驗證、可恢復、可治理的主權

這篇最值得記住的,不是 attack taxonomy,而是 memory governance primitives

我自己最喜歡這篇的地方,是它把記憶安全重新拉回治理層。作者指出,目前沒有任何已發表 architecture 能完整覆蓋他整理出的治理原語。這句話其實很重,因為它代表:

  • 很多 agent 有 memory,但沒有成熟的 memory policy
  • 很多系統會共享 state,但沒有真正的 provenance 與授權邊界
  • 很多框架會記住東西,但不太會安全地忘記東西

如果把這件事翻成工程語言,就是:現在很多 memory-enabled agent,還比較像「會把東西一直存下來」的 prototype,而不是「有 state governance」的 production system。

這也直接解釋了為什麼 memory 題在最近 agent security 裡越來越重要。因為只要 state 是持久的,攻擊者真正想做的就不再只是一次 prompt hijack,而是把未來也一起改掉

把它放回近期 sectools.tw 主線,它補的是哪一塊?

如果把最近幾篇放在一起看,像是:

  • 談 persistent state 與 identity 風險的 paper
  • 談 runtime invariants 與 delegated-agent drift 的 paper
  • 談 prompt hierarchy、tool-call boundary、secret mediation 的 paper

那這篇 survey 剛好補上一個更底層、但很少被單獨治理清楚的共通基座:state 本身。

因為很多前面看起來不同的風險,最後都會落到 memory 上:

  • prompt injection 可能把錯誤指令沉澱成長期偏差
  • tool poisoning 可能把錯誤 observation 寫成未來 planning 依據
  • identity / preference manipulation 可能透過 memory 慢慢固化
  • cross-agent collaboration 則會把局部污染擴散成共享污染

所以這篇真正補的不是又一條新 attack path,而是提醒大家:若不把 memory 當成獨立治理對象,前面很多 runtime defense 最後都只是把當下 turn 守住,卻沒守住未來。

我覺得這篇最重要的實務啟發

如果你今天真的在做 agent system,我會把這篇 paper 濃縮成幾個非常實務的提醒:

  1. memory write 不該無條件自動化:不是每個 observation 都該被永久保存。
  2. retrieve 不只是 relevance 問題,也是 authority 問題:高相關不代表高可信。
  3. shared memory 要有 provenance 與 rollback:不然污染一進去就會像墨水進水箱。
  4. forget 是安全功能,不是附屬功能:沒有安全刪除與版本回復,就談不上記憶主權。
  5. memory policy 要和 action policy 連動:不能只管 agent 能做什麼,不管它為什麼以為自己該這樣做。

這幾點看起來平凡,但其實正好戳中目前很多 agent framework 還沒補齊的地方。

總結

A Survey on the Security of Long-Term Memory in LLM Agents 值得看的原因,不只是它整理了 memory attack literature,而是它把 memory 從「agent 的便利功能」重新拉回「agent 的治理核心」。

真正成熟的 agent,不應該只是記得更多,而應該更清楚哪些東西能被記住、誰能改、誰能讀、何時該忘、出事後怎麼退回乾淨狀態。這篇 paper 把那套思路命名成 mnemonic sovereignty,我覺得這個詞抓得很好。

因為在 agent 時代,主權不只發生在模型權重、工具權限或 system prompt 上;記憶本身,也是控制權的一部分。