Security Evaluation Framework

2026

AVISE 論文閱讀分析:很多 AI 安全真正缺的,不是再多一個攻擊 prompt,而是一套可重跑的評測框架

這篇論文真正補到的,不是又一組 jailbreak 技巧,而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架,並用 ALM 增強版 Red Queen 多輪攻擊示範:25 個 test cases、ELM 評估準確率 92%,且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。

2026 年 4 月 23 日