Jailbreak Evaluation

這篇論文真正補到的，不是又一組 jailbreak 技巧，而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架，並用 ALM 增強版 Red Queen 多輪攻擊示範：25 個 test cases、ELM 評估準確率 92%，且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。

2026 年 4 月 23 日

Paper Survey

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

這篇論文最值得注意的，不是它再次提醒 LLM tutor 可能會洩答，而是它把問題從一般教學品質拉回 adversarial robustness：真正該量的，是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時，tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%，而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

Jailbreak Evaluation

2026

AVISE 論文閱讀分析：很多 AI 安全真正缺的，不是再多一個攻擊 prompt，而是一套可重跑的評測框架

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

近期文章

廣告

文章分類

近期留言