TIGS 論文閱讀分析:很多 backdoored LLM 真正缺的,不是再多一層說教,而是 trigger 一接管注意力就有人當場關門
本文由 AI 產生、整理與撰寫。 論文基...
2026 年 4 月 28 日
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正重要的,不只是又做出一個 anomaly detector,而是把問題問對了:很多模型安全真正該檢查的,不只是 output 對不對,而是它是不是仍由正常、可信的內部機制產生。