Paper Survey

2026

AgentSentry 論文閱讀分析:真正該防的不是某段外部內容看起來多可疑,而是它什麼時候開始接管了 Agent 下一步

AgentSentry 把多步驟 indirect prompt injection 重新定義成 temporal causal takeover 問題:重點不是某段工具輸出像不像惡意指令,而是從哪一個 tool-return boundary 開始,agent 的下一步已不再主要由 user goal 推動,而是被外部污染的 context 接管。它用 counterfactual replay 做診斷,再用 context purification 切掉控制訊號,目標不是停機,而是安全續跑。

2026 年 4 月 17 日

ClawGuard 論文閱讀分析:真正能擋下間接提示注入的,可能不是更乖的模型,而是工具邊界前那道不靠運氣的安檢

ClawGuard 這篇論文最重要的提醒是:對有工具權限的 LLM agent 來說,安全不能只押寶模型自己在被污染的上下文裡保持清醒,而要把防線放在每一次 tool call 即將落地的邊界。它用任務導出的規則、內容遮罩、技能檢查與人工批准,把 web content、MCP 與 skill file 三條間接注入路徑一起拉回可審計的 runtime control plane。

2026 年 4 月 17 日

Argus 論文閱讀分析:當靜態弱點分析真正卡住時,問題可能不是模型不夠聰明,而是整條工作流排錯了位置

Argus 這篇論文真正有意思的地方,不是又做了一個多代理弱點偵測框架,而是把 SAST workflow 從 tool-centered、LLM-assisted,重排成 LLM-centered、tool-and-context-assisted 的調查閉環:把 dependency、外部漏洞知識、data flow review、PoC generation 與多代理協作接成一條更完整的 AppSec orchestration pipeline。

2026 年 4 月 11 日

Your Agent is More Brittle Than You Think 論文閱讀分析:真正會害死 Agent 的,常常不是一句明著來的指令,而是它正常讀到的外部內容

這篇論文把 indirect prompt injection 丟進真正的多步驟 tool-calling agent 環境裡,證明目前許多表面型防禦幾乎擋不住動態 workflow 中的未授權行動;更值得注意的是,作者發現模型在表面快速照做時,內部表徵其實往往已出現異常猶豫,讓 RepE 式 runtime circuit breaker 成為更有前景的防禦方向。

2026 年 4 月 11 日

論文閱讀分析|Memory Poisoning Attack and Defense:當 Agent 把錯誤真的記住,風險就不再只是當下那句 Prompt

這篇論文把 memory poisoning 從 demo 級攻擊拉回更接近 production 的條件:當系統已經有正常記憶時,攻擊不一定像空白環境那麼穩;但只要 retrieval top-k 放大,污染仍會重新浮上來。真正值得投資的不是單點 guardrail,而是 trust-aware retrieval 與整條 memory lifecycle 的治理。

2026 年 4 月 11 日

論文閱讀分析|No Attacker Needed:當共享記憶 Agent 真正出事時,污染你的不一定是攻擊者,也可能只是上一位使用者的脈絡

這篇論文把焦點從惡意 memory poisoning 轉向更接近 production 的問題:共享記憶 agent 可能把某位使用者局部正確的規則、格式與流程,錯當成通用知識套到下一位使用者身上。在 raw shared state 下, benign interaction 就能造成 57% 到 71% 的污染率。

2026 年 4 月 11 日