Adversarial Robustness

2026

AUTO-ART 論文閱讀分析:很多模型安全真正缺的,不是再多跑幾個 attack,而是先審評測是不是在騙你

這篇論文真正補的不是又一個 attack 套件,而是把 adversarial robustness evaluation 裡最常自欺的幾件事正面工程化:FOSC 抓 gradient masking、RDI 做 30× 快速 triage、multi-norm worst-case reporting 拆穿平均值幻覺。作者在 RobustBench top-10 models 上發現,worst-case multi-norm robustness 比單看 ℓ∞ 低 23.5 個百分點。

2026 年 4 月 23 日

LLM Tutor 洩答論文閱讀分析:很多教學助手真正先守不住的,不是正確率,而是答案邊界

這篇論文最值得注意的,不是它再次提醒 LLM tutor 可能會洩答,而是它把問題從一般教學品質拉回 adversarial robustness:真正該量的,是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時,tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%,而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

SafeLM 論文閱讀分析:真正讓 federated LLM 比較可信的,不是把資料分散出去而已,而是別讓隱私、對齊與亂講各自掉線

這篇 SafeLM 最值得看的,不是它又把 trustworthy AI 變成一張更大的願望清單,而是它直接承認 federated LLM 的真實問題從來不是單點風險:你不只要防梯度與更新洩漏,還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值,在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。

2026 年 4 月 22 日