MLLM Safety

這篇論文最有價值的地方，不只是證明多模態 backdoor 可以打得很成功，而是把問題往前推到 mechanistic level：作者發現就算只 fine-tune projector，也足以把拒答、惡意注入、感知劫持與越獄行為種進 MLLM，真正的關鍵不是顯眼的 trigger neuron，而是 projector 低秩子空間裡的 backdoor 參數與一條把表示往危險語意推的 universal drift vector。

2026 年 4 月 22 日

MLLM Safety

2026

ProjLens 論文閱讀分析：很多多模態模型真正危險的，不是主模型突然學壞，而是那層 projector 早就把視覺訊號悄悄翻成危險行為

近期文章

廣告

文章分類

近期留言