Tool Invocation

AttriGuard 最重要的洞見是：間接提示注入不該只當成文字分類問題，而該當成行動歸因問題。真正要驗的不是外部內容哪句話最像惡意 prompt，而是某個 tool call 到底是不是仍由使用者意圖支撐；如果把 observation 的控制力削弱後，這個 call 就活不下來，那它就很可能已經被外部內容接管。

2026 年 4 月 17 日

Tool Invocation

2026

AttriGuard 論文閱讀分析：真正該防的，也許從來不是那段髒資料「像不像指令」，而是它到底有沒有開始接管 Agent 下一步

近期文章

廣告

文章分類

近期留言