Adversarial Evaluation

2026

AutoRISE 論文閱讀分析:很多 LLM red teaming 真正缺的,不是再多一條 prompt,而是讓攻擊策略自己進化

這篇論文真正麻煩的地方,不是又多了幾句會 jailbreak 的 prompt,而是把 automated red teaming 從「改寫提示詞」往上抬成「改寫整個攻擊策略程式」。AutoRISE 讓 coding agent 直接編輯 strategy.py,根據固定 evaluation harness 回傳的成功率、多樣性、新穎性與覆蓋率訊號持續演化 attack pipeline。對防守方來說,這提醒我們真正要面對的可能已經不是 prompt collection,而是會自己換打法的攻擊者。

2026 年 4 月 29 日

AdapTools 論文閱讀分析:當 Agent 已經不是簡單的文字接龍,Prompt Injection 也開始學會挑工具、換說法、順著任務偽裝自己

AdapTools 這篇論文最值得記住的重點是:對現代 tool-using agent 來說,真正危險的 indirect prompt injection 已經不只是固定模板,而是會根據任務脈絡挑選最合適工具入口、改寫攻擊語句、並偽裝成正常外部內容的適應式攻擊。當攻擊者也開始理解 agent workflow,單靠 prompt-level 過濾很難真正守住整條控制鏈。

2026 年 4 月 17 日