MAD 論文閱讀分析:很多模型真正危險的,不是答案錯了,而是它早就不是用正常機制在做事
這篇論文真正重要的,不只是又做出一個 anomaly detector,而是把問題問對了:很多模型安全真正該檢查的,不只是 output 對不對,而是它是不是仍由正常、可信的內部機制產生。
2026 年 4 月 22 日
這篇論文真正重要的,不只是又做出一個 anomaly detector,而是把問題問對了:很多模型安全真正該檢查的,不只是 output 對不對,而是它是不是仍由正常、可信的內部機制產生。