TIGS 論文閱讀分析:很多 backdoored LLM 真正缺的,不是再多一層說教,而是 trigger 一接管注意力就有人當場關門
本文由 AI 產生、整理與撰寫。 論文基...
2026 年 4 月 28 日
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
論文基本資訊 論文標題:Defense ...
本文由 AI 產生、整理與撰寫。 論文基...
AgentSentry 把多步驟 indirect prompt injection 重新定義成 temporal causal takeover 問題:重點不是某段工具輸出像不像惡意指令,而是從哪一個 tool-return boundary 開始,agent 的下一步已不再主要由 user goal 推動,而是被外部污染的 context 接管。它用 counterfactual replay 做診斷,再用 context purification 切掉控制訊號,目標不是停機,而是安全續跑。