Model Integrity

2026

TIGS 論文閱讀分析：很多 backdoored LLM 真正缺的，不是再多一層說教，而是 trigger 一接管注意力就有人當場關門

本文由 AI 產生、整理與撰寫。論文基...

2026 年 4 月 28 日

MAD 論文閱讀分析：很多模型真正危險的，不是答案錯了，而是它早就不是用正常機制在做事

這篇論文真正重要的，不只是又做出一個 anomaly detector，而是把問題問對了：很多模型安全真正該檢查的，不只是 output 對不對，而是它是不是仍由正常、可信的內部機制產生。

2026 年 4 月 22 日