MLLM Safety

2026

ProjLens 論文閱讀分析:很多多模態模型真正危險的,不是主模型突然學壞,而是那層 projector 早就把視覺訊號悄悄翻成危險行為

這篇論文最有價值的地方,不只是證明多模態 backdoor 可以打得很成功,而是把問題往前推到 mechanistic level:作者發現就算只 fine-tune projector,也足以把拒答、惡意注入、感知劫持與越獄行為種進 MLLM,真正的關鍵不是顯眼的 trigger neuron,而是 projector 低秩子空間裡的 backdoor 參數與一條把表示往危險語意推的 universal drift vector。

2026 年 4 月 22 日