AgentWatcher 論文閱讀分析:真正該被檢查的,也許不是整份長上下文,而是那幾段已經開始接管 Agent 下一步的內容
本文由 AI 產生、整理與撰寫。 論文基...
2026 年 4 月 18 日
本文由 AI 產生、整理與撰寫。 論文基...
AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。