Catastrophic Overfitting

2026

DDG 論文閱讀分析:很多 adversarial training 真正缺的,不是更猛的攻擊,而是別把最脆弱的樣本一路打壞

這篇論文真正值得看的,不是它又替 adversarial training 補了一個技巧,而是它指出:很多 robustness 崩壞不是平均發生,而是低信心樣本上的錯誤訊號被一路放大,最後演變成 catastrophic overfitting 與 clean accuracy 的雙輸。作者提出 DDG,按樣本信心與預測狀態動態調整 perturbation 與 supervision,核心是在防禦訓練過程中先別把最脆弱的樣本打壞。

2026 年 4 月 29 日