Tool Invocation

2026

AttriGuard 論文閱讀分析:真正該防的,也許從來不是那段髒資料「像不像指令」,而是它到底有沒有開始接管 Agent 下一步

AttriGuard 最重要的洞見是:間接提示注入不該只當成文字分類問題,而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt,而是某個 tool call 到底是不是仍由使用者意圖支撐;如果把 observation 的控制力削弱後,這個 call 就活不下來,那它就很可能已經被外部內容接管。

2026 年 4 月 17 日