Memory Poisoning

2026

Visual Inception 論文閱讀分析:最危險的圖片,不一定當下就有毒,而是之後會被 Agent 自己重新想起來的那張

這篇論文最值得看的,不是它又示範了一次多模態攻擊,而是它證明:在會保存長期記憶、之後再拿來做規劃的 agent 系統裡,一張今天看起來正常的圖片,也能變成明天悄悄接管推薦方向的 sleeper agent。真正的風險,不只是輸入有毒,而是有毒輸入被你收進記憶之後,還會被系統自己重新想起來。

2026 年 4 月 22 日

Zombie Agents 論文閱讀分析:當 AI Agent 會自己把教訓寫進記憶裡,Prompt Injection 就可能從當場失控變成長期感染

Zombie Agents 這篇論文最重要的提醒是:對會跨 session 寫入與重用長期記憶的 agent 來說,真正危險的已經不只是當前回合的 indirect prompt injection,而是這些外部惡意內容被 agent 自己內化成未來還會再用的記憶。當 memory evolution 成為攻擊面,一次 benign exposure 就可能演變成持久化的 agent compromise。

2026 年 4 月 17 日

論文閱讀分析|Memory Poisoning Attack and Defense:當 Agent 把錯誤真的記住,風險就不再只是當下那句 Prompt

這篇論文把 memory poisoning 從 demo 級攻擊拉回更接近 production 的條件:當系統已經有正常記憶時,攻擊不一定像空白環境那麼穩;但只要 retrieval top-k 放大,污染仍會重新浮上來。真正值得投資的不是單點 guardrail,而是 trust-aware retrieval 與整條 memory lifecycle 的治理。

2026 年 4 月 11 日