AttriGuard 論文閱讀分析:真正該防的,也許從來不是那段髒資料「像不像指令」,而是它到底有沒有開始接管 Agent 下一步
AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。
AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。
ClawGuard 這篇論文最重要的提醒是:對有工具權限的 LLM agent 來說,安全不能只押寶模型自己在被污染的上下文裡保持清醒,而要把防線放在每一次 tool call 即將落地的邊界。它用任務導出的規則、內容遮罩、技能檢查與人工批准,把 web content、MCP 與 skill file 三條間接注入路徑一起拉回可審計的 runtime control plane。
這篇論文把 memory poisoning 從 demo 級攻擊拉回更接近 production 的條件:當系統已經有正常記憶時,攻擊不一定像空白環境那麼穩;但只要 retrieval top-k 放大,污染仍會重新浮上來。真正值得投資的不是單點 guardrail,而是 trust-aware retrieval 與整條 memory lifecycle 的治理。
這篇論文把焦點從惡意 memory poisoning 轉向更接近 production 的問題:共享記憶 agent 可能把某位使用者局部正確的規則、格式與流程,錯當成通用知識套到下一位使用者身上。在 raw shared state 下, benign interaction 就能造成 57% 到 71% 的污染率。
AIR 把 detection、containment、recovery、eradication 直接接進 LLM agent execution loop,試圖回答一個常被忽略的問題:當 agent 真的出事時,系統能不能像成熟的 incident response 流程那樣自己發現、止血、修復,並把這次事故轉成未來的 guardrail。