AI Red Teaming

Prompt Injection Kill Chain 論文閱讀分析：很多 agent 真正缺的，不是再多一個過濾器，而是先看清楚髒東西在哪一層被寫進系統

這篇 paper 真正補的，不是再多一個 prompt injection 分數，而是把 agent 失守拆成 EXPOSED、PERSISTED、RELAYED、EXECUTED 四段，讓你看見髒東西究竟在哪個 write node 被寫進系統、又沿哪條 relay path 變成高權限行為。

2026 年 4 月 29 日

Paper Survey

AVISE 論文閱讀分析：很多 AI 安全真正缺的，不是再多一個攻擊 prompt，而是一套可重跑的評測框架

這篇論文真正補到的，不是又一組 jailbreak 技巧，而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架，並用 ALM 增強版 Red Queen 多輪攻擊示範：25 個 test cases、ELM 評估準確率 92%，且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。

2026 年 4 月 23 日

Paper Survey

ARES 論文閱讀分析：很多安全對齊真正先壞掉的，不是模型單點失守，而是 policy 跟 reward model 一起誤判了同一件危險事

這篇論文最值得看的地方，不是又做了一套 jailbreak framework，而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來：如果 actor 跟 judge 共享同一種安全盲點，整條 alignment pipeline 會一起鬆手。

2026 年 4 月 22 日

Paper Survey

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

這篇論文真正重要的地方，不是又多一種 jailbreak 花招，而是指出 safety alignment 若主要還是行為偏好層，碰上更強的 few-shot pattern completion 時，就可能把控制權讓出去。

2026 年 4 月 22 日

2026

Prompt Injection Kill Chain 論文閱讀分析：很多 agent 真正缺的，不是再多一個過濾器，而是先看清楚髒東西在哪一層被寫進系統

AVISE 論文閱讀分析：很多 AI 安全真正缺的，不是再多一個攻擊 prompt，而是一套可重跑的評測框架

ARES 論文閱讀分析：很多安全對齊真正先壞掉的，不是模型單點失守，而是 policy 跟 reward model 一起誤判了同一件危險事

IICL 論文閱讀分析：很多安全對齊真正輸掉的，不是模型不知道危險，而是它太會把眼前的 pattern 補完

近期文章

廣告

文章分類

近期留言