Runtime Security

AttriGuard 論文閱讀分析：真正該防的，也許從來不是那段髒資料「像不像指令」，而是它到底有沒有開始接管 Agent 下一步

AttriGuard 最重要的洞見是：間接提示注入不該只當成文字分類問題，而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt，而是某個 tool call 到底是不是仍由使用者意圖支撐；如果把 observation 的控制力削弱後，這個 call 就活不下來，那它就很可能已經被外部內容接管。

2026 年 4 月 17 日

Paper Survey

ClawGuard 論文閱讀分析：真正能擋下間接提示注入的，可能不是更乖的模型，而是工具邊界前那道不靠運氣的安檢

ClawGuard 這篇論文最重要的提醒是：對有工具權限的 LLM agent 來說，安全不能只押寶模型自己在被污染的上下文裡保持清醒，而要把防線放在每一次 tool call 即將落地的邊界。它用任務導出的規則、內容遮罩、技能檢查與人工批准，把 web content、MCP 與 skill file 三條間接注入路徑一起拉回可審計的 runtime control plane。

2026 年 4 月 17 日

Paper Survey

論文閱讀分析｜Memory Poisoning Attack and Defense：當 Agent 把錯誤真的記住，風險就不再只是當下那句 Prompt

這篇論文把 memory poisoning 從 demo 級攻擊拉回更接近 production 的條件：當系統已經有正常記憶時，攻擊不一定像空白環境那麼穩；但只要 retrieval top-k 放大，污染仍會重新浮上來。真正值得投資的不是單點 guardrail，而是 trust-aware retrieval 與整條 memory lifecycle 的治理。

2026 年 4 月 11 日

Paper Survey

論文閱讀分析｜No Attacker Needed：當共享記憶 Agent 真正出事時，污染你的不一定是攻擊者，也可能只是上一位使用者的脈絡

這篇論文把焦點從惡意 memory poisoning 轉向更接近 production 的問題：共享記憶 agent 可能把某位使用者局部正確的規則、格式與流程，錯當成通用知識套到下一位使用者身上。在 raw shared state 下， benign interaction 就能造成 57% 到 71% 的污染率。

2026 年 4 月 11 日

Paper Survey

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

AIR 把 detection、containment、recovery、eradication 直接接進 LLM agent execution loop，試圖回答一個常被忽略的問題：當 agent 真的出事時，系統能不能像成熟的 incident response 流程那樣自己發現、止血、修復，並把這次事故轉成未來的 guardrail。

2026 年 4 月 10 日

2026

AttriGuard 論文閱讀分析：真正該防的，也許從來不是那段髒資料「像不像指令」，而是它到底有沒有開始接管 Agent 下一步

ClawGuard 論文閱讀分析：真正能擋下間接提示注入的，可能不是更乖的模型，而是工具邊界前那道不靠運氣的安檢

論文閱讀分析｜Memory Poisoning Attack and Defense：當 Agent 把錯誤真的記住，風險就不再只是當下那句 Prompt

論文閱讀分析｜No Attacker Needed：當共享記憶 Agent 真正出事時，污染你的不一定是攻擊者，也可能只是上一位使用者的脈絡

AIR 論文閱讀分析：真正成熟的 Agent Safety，不只要會阻止出事，還要會在出事後善後

近期文章

廣告

文章分類

近期留言