2026

AttriGuard 論文閱讀分析:真正該防的,也許從來不是那段髒資料「像不像指令」,而是它到底有沒有開始接管 Agent 下一步

AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。

2026 年 4 月 17 日

Beyond RAG for CTI 論文閱讀分析:真正卡住情資問答的,往往不是找不到文件,而是關係推理、拒答能力與 runtime 穩定性根本沒被一起設計

Beyond RAG for Cyber Threat Intelligence 這篇論文最值得看的地方,是它沒有再把 GraphRAG 當成萬靈丹,而是把 CTI 問答裡真正重要的幾條軸線一起攤開:當問題需要多跳關係推理時,graph grounding 確實能幫上忙;但 graph-only pipeline 也會引入 text-to-Cypher、schema mismatch、空結果高自信回答與延遲不穩等新風險。最後更可靠的方向,不是單一路線,而是 graph、text、agentic repair 與 abstention policy 一起設計的 hybrid intelligence system。

2026 年 4 月 17 日

Zombie Agents 論文閱讀分析:當 AI Agent 會自己把教訓寫進記憶裡,Prompt Injection 就可能從當場失控變成長期感染

Zombie Agents 這篇論文最重要的提醒是:對會跨 session 寫入與重用長期記憶的 agent 來說,真正危險的已經不只是當前回合的 indirect prompt injection,而是這些外部惡意內容被 agent 自己內化成未來還會再用的記憶。當 memory evolution 成為攻擊面,一次 benign exposure 就可能演變成持久化的 agent compromise。

2026 年 4 月 17 日

Prompt Injection SoK 論文閱讀分析:真正該被治理的,早就不只是 prompt,而是整條 coding agent 會接觸到的控制面

這篇 Prompt Injection Attacks on Agentic Coding Assistants 的 SoK 把問題講得很完整:當 coding assistant 已經能讀檔、跑 shell、接 MCP、吃 skill 與 repo 規則檔時,風險就不再只是某段 prompt 有沒有惡意,而是整條從外部內容、工具描述、協定整合到設定持久化的控制面都可能被注入。真正要治理的,是 agent runtime 的信任邊界,而不是只靠過濾器擋幾句關鍵字。

2026 年 4 月 17 日

AgentSentry 論文閱讀分析:真正該防的不是某段外部內容看起來多可疑,而是它什麼時候開始接管了 Agent 下一步

AgentSentry 把多步驟 indirect prompt injection 重新定義成 temporal causal takeover 問題:重點不是某段工具輸出像不像惡意指令,而是從哪一個 tool-return boundary 開始,agent 的下一步已不再主要由 user goal 推動,而是被外部污染的 context 接管。它用 counterfactual replay 做診斷,再用 context purification 切掉控制訊號,目標不是停機,而是安全續跑。

2026 年 4 月 17 日

ClawGuard 論文閱讀分析:真正能擋下間接提示注入的,可能不是更乖的模型,而是工具邊界前那道不靠運氣的安檢

ClawGuard 這篇論文最重要的提醒是:對有工具權限的 LLM agent 來說,安全不能只押寶模型自己在被污染的上下文裡保持清醒,而要把防線放在每一次 tool call 即將落地的邊界。它用任務導出的規則、內容遮罩、技能檢查與人工批准,把 web content、MCP 與 skill file 三條間接注入路徑一起拉回可審計的 runtime control plane。

2026 年 4 月 17 日

Argus 論文閱讀分析:當靜態弱點分析真正卡住時,問題可能不是模型不夠聰明,而是整條工作流排錯了位置

Argus 這篇論文真正有意思的地方,不是又做了一個多代理弱點偵測框架,而是把 SAST workflow 從 tool-centered、LLM-assisted,重排成 LLM-centered、tool-and-context-assisted 的調查閉環:把 dependency、外部漏洞知識、data flow review、PoC generation 與多代理協作接成一條更完整的 AppSec orchestration pipeline。

2026 年 4 月 11 日

Your Agent is More Brittle Than You Think 論文閱讀分析:真正會害死 Agent 的,常常不是一句明著來的指令,而是它正常讀到的外部內容

這篇論文把 indirect prompt injection 丟進真正的多步驟 tool-calling agent 環境裡,證明目前許多表面型防禦幾乎擋不住動態 workflow 中的未授權行動;更值得注意的是,作者發現模型在表面快速照做時,內部表徵其實往往已出現異常猶豫,讓 RepE 式 runtime circuit breaker 成為更有前景的防禦方向。

2026 年 4 月 11 日