Mechanistic Interpretability
2026
MAD 論文閱讀分析:很多模型真正危險的,不是答案錯了,而是它早就不是用正常機制在做事
這篇論文真正重要的,不只是又做出一個 anomaly detector,而是把問題問對了:很多模型安全真正該檢查的,不只是 output 對不對,而是它是不是仍由正常、可信的內部機制產生。
ProjLens 論文閱讀分析:很多多模態模型真正危險的,不是主模型突然學壞,而是那層 projector 早就把視覺訊號悄悄翻成危險行為
這篇論文最有價值的地方,不只是證明多模態 backdoor 可以打得很成功,而是把問題往前推到 mechanistic level:作者發現就算只 fine-tune projector,也足以把拒答、惡意注入、感知劫持與越獄行為種進 MLLM,真正的關鍵不是顯眼的 trigger neuron,而是 projector 低秩子空間裡的 backdoor 參數與一條把表示往危險語意推的 universal drift vector。
SAGE 論文閱讀分析:很多漏洞 AI 真正卡住的,不是完全看不懂,而是關鍵漏洞訊號在它腦內太小聲
SAGE 最有意思的地方,是把 LLM 漏洞偵測常見的失敗重新解釋成 signal submersion:模型不是完全沒看到漏洞,而是安全訊號在大量正常功能語意裡被淹掉了。
AI Coding 論文閱讀分析:模型最危險的,不一定是不懂安全,而是最後一刻把安全讓給了格式與方便
這篇論文最重要的發現,不是 LLM 會寫出有漏洞的程式,而是它很多時候其實知道什麼才是安全寫法;真正出錯的是生成最後階段,安全訊號被格式服從、任務完成與便利性需求壓過去。作者進一步用 mechanistic analysis 找到 suppression 發生的位置,並用 per-CWE activation steering 做局部修補。
Harmful Intent 偵測論文閱讀分析:真正難抓的,不是最刺眼的危險詞,而是那些合起來才開始危險的訊號
這篇論文真正補到的,不只是 harmful intent probe 的分數,而是很多即時安全監測一直在用錯的感測邏輯:真正危險的意圖,常常不是靠某一個高分 token 暴露,而是靠一整段彼此呼應的證據慢慢收斂出來。
Jailbreak 路徑論文閱讀分析:不是每種越獄都只是把模型變壞,有些是把方向盤偷偷扭走
這篇論文真正重要的提醒,是不同 jailbreak 路徑不只會讓模型更危險,還會把它變成不同種類的危險系統:有些是整體漂移,有些則是保留安全理解卻把行為策略偷偷改向。
Identity as Attractor 論文閱讀分析:當 Persistent Agent 看起來像「同一個人」,背後可能不是 prompt 寫得像,而是 activation space 真的在收斂
Identity as Attracto...
Prompt Injection as Role Confusion 論文閱讀分析:很多 Agent 之所以被騙,可能不是因為它沒看見邊界,而是它從一開始就把誰在說話認錯了
本文由 AI 產生、整理與撰寫。 論文基...
