Adversarial Robustness

AUTO-ART 論文閱讀分析：很多模型安全真正缺的，不是再多跑幾個 attack，而是先審評測是不是在騙你

這篇論文真正補的不是又一個 attack 套件，而是把 adversarial robustness evaluation 裡最常自欺的幾件事正面工程化：FOSC 抓 gradient masking、RDI 做 30× 快速 triage、multi-norm worst-case reporting 拆穿平均值幻覺。作者在 RobustBench top-10 models 上發現，worst-case multi-norm robustness 比單看 ℓ∞ 低 23.5 個百分點。

2026 年 4 月 23 日

Paper Survey

SAE 論文閱讀分析：很多 jailbreak 真正好用的，不是 prompt 多髒，而是模型內部那條路太好走

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 23 日

Paper Survey

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

這篇論文最值得注意的，不是它再次提醒 LLM tutor 可能會洩答，而是它把問題從一般教學品質拉回 adversarial robustness：真正該量的，是當學生開始像攻擊者一樣多輪施壓、情境操弄、慢慢磨穿邊界時，tutor 還能不能守住 final answer。作者發現 contextual manipulation 平均 leakage rate 高達 74%，而 fine-tuned adversarial student 更可把 Qwen-32B 的 tutor leakage 從 4% 拉到 70%。

2026 年 4 月 22 日

Paper Survey

SafeLM 論文閱讀分析：真正讓 federated LLM 比較可信的，不是把資料分散出去而已，而是別讓隱私、對齊與亂講各自掉線

這篇 SafeLM 最值得看的，不是它又把 trustworthy AI 變成一張更大的願望清單，而是它直接承認 federated LLM 的真實問題從來不是單點風險：你不只要防梯度與更新洩漏，還要一起管 hallucination、惡意輸入與聚合被帶偏。論文的價值，在於把 privacy、security、misinformation 與 adversarial robustness 拉回同一套系統設計來看。

2026 年 4 月 22 日

2026

AUTO-ART 論文閱讀分析：很多模型安全真正缺的，不是再多跑幾個 attack，而是先審評測是不是在騙你

SAE 論文閱讀分析：很多 jailbreak 真正好用的，不是 prompt 多髒，而是模型內部那條路太好走

LLM Tutor 洩答論文閱讀分析：很多教學助手真正先守不住的，不是正確率，而是答案邊界

SafeLM 論文閱讀分析：真正讓 federated LLM 比較可信的，不是把資料分散出去而已，而是別讓隱私、對齊與亂講各自掉線

近期文章

廣告

文章分類

近期留言