LLM Safety
2026
AVISE 論文閱讀分析:很多 AI 安全真正缺的,不是再多一個攻擊 prompt,而是一套可重跑的評測框架
這篇論文真正補到的,不是又一組 jailbreak 技巧,而是把 attack、evaluation、aggregation 與 reporting 接成可重跑的 Security Evaluation Test。作者提出 AVISE 框架,並用 ALM 增強版 Red Queen 多輪攻擊示範:25 個 test cases、ELM 評估準確率 92%,且 9 個近期模型全都對這類多輪操控呈現不同程度脆弱性。
SafeDream 論文閱讀分析:很多多輪 jailbreak 真正危險的,不是某句突然失守,而是整段對話正在把模型慢慢推向 compliance
這篇論文真正補到的,不是又一個逐輪 guardrail,而是把 multi-turn jailbreak 當成安全狀態逐步侵蝕的時間序列問題來看。SafeDream 用 safety world model、CUSUM 與 contrastive imagination,嘗試在模型真正開始 compliance 前約 1 輪就先發現失守軌跡。
LLM Tutor 洩答論文閱讀分析:很多教學助手真正先守不住的,不是正確率,而是答案邊界
這篇論文最值得注意的,不是它再次提醒 LLM tutor 可能會洩答,而是它把問題從一般教學品質拉回 adversarial robustness:真正該量的,是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時,tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%,而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。
ARES 論文閱讀分析:很多安全對齊真正先壞掉的,不是模型單點失守,而是 policy 跟 reward model 一起誤判了同一件危險事
這篇論文最值得看的地方,不是又做了一套 jailbreak framework,而是把 RLHF 系統裡 policy model 與 reward model 的共同失效面抓出來:如果 actor 跟 judge 共享同一種安全盲點,整條 alignment pipeline 會一起鬆手。
IICL 論文閱讀分析:很多安全對齊真正輸掉的,不是模型不知道危險,而是它太會把眼前的 pattern 補完
這篇論文真正重要的地方,不是又多一種 jailbreak 花招,而是指出 safety alignment 若主要還是行為偏好層,碰上更強的 few-shot pattern completion 時,就可能把控制權讓出去。
Audio LLM 論文閱讀分析:很多模型真正不是被惡意資料教壞,而是被那些看起來正常的聲音慢慢磨掉拒答邊界
這篇論文最值得注意的地方,是它證明 Audio LLM 的安全邊界不只會被惡意資料拉垮;就連語意上無害、但在表示空間裡靠近 harmful content 的 benign audio,也可能讓 Jailbreak Success Rate 大幅飆升,顯示多模態安全真正脆弱的地方常在聲學與語意交纏的內部表示幾何。
Adversarial Arena 論文閱讀分析:真正稀缺的安全對齊資料,很多時候不是寫不出來,而是沒有被攻防互打逼出來
這篇論文的關鍵,不只是再收集一批 cyber 對齊資料,而是把 attacker 與 defender 的多輪對抗做成一個會持續產生標註對話、排名回饋與資料多樣性的 tournament flywheel。
