Runtime Defense

2026

AgentSentry 論文閱讀分析:真正該防的不是某段外部內容看起來多可疑,而是它什麼時候開始接管了 Agent 下一步

AgentSentry 把多步驟 indirect prompt injection 重新定義成 temporal causal takeover 問題:重點不是某段工具輸出像不像惡意指令,而是從哪一個 tool-return boundary 開始,agent 的下一步已不再主要由 user goal 推動,而是被外部污染的 context 接管。它用 counterfactual replay 做診斷,再用 context purification 切掉控制訊號,目標不是停機,而是安全續跑。

2026 年 4 月 17 日