ProjLens 論文閱讀分析:很多多模態模型真正危險的,不是主模型突然學壞,而是那層 projector 早就把視覺訊號悄悄翻成危險行為
論文基本資訊
- 論文標題:Unveiling the Role of Projectors in Multimodal Model Safety
- 年份:2026
- 來源:arXiv:2604.19083
- 論文連結:https://arxiv.org/abs/2604.19083
- DOI:10.48550/arXiv.2604.19083
- 主題:Multimodal Security、MLLM Safety、Backdoor Attacks、Projector Fine-Tuning、Mechanistic Interpretability、AI Supply Chain Security
很多人在看多模態模型安全時,第一直覺都還停在:問題應該出在 vision encoder、主模型本體,或整包 training data 太髒。
但這篇 ProjLens 真正要戳破的是另一件更麻煩的事:你以為只是中間那層拿來把視覺特徵接到語言模型的 projector,很可能就已經足夠把整個 MLLM 的安全行為帶歪。
這篇最值得記住的主張,不是「多模態 backdoor 存在」這件事本身,而是:就算只 fine-tune projector,攻擊者也可能把拒答、越獄、惡意注入這些危險行為穩定種進去。
這個 framing 很重要。因為它直接改寫了很多團隊的風險假設:如果 projector 被當成只是便宜、無害、可替換的 adaptation layer,那很多看似「只動小地方」的調校流程,安全上其實根本沒有你想的那麼小。
這篇真正打到的痛點是什麼?
作者關注的是 MLLM backdoor 的機制問題,而不是只做一輪攻擊 demo。
以前不少工作已經證明,透過 poisoned fine-tuning data,可以讓多模態模型在看到特定 trigger 圖像時出現錯誤或危險行為。但大多數研究停在兩層:
- 證明 attack success rate 很高
- 設計更隱蔽的 trigger 或更有效的 poisoning 策略
ProjLens 要追的是更深一層的問題:
- 這些 backdoor 到底被模型存在哪裡?
- 它到底是靠哪種表示偏移被觸發?
- 為什麼只動 projector,也能改掉整個模型的安全行為?
我覺得這篇的價值就在這裡:它不是再多做一個能打的 backdoor,而是開始拆解多模態 backdoor 在 projector 裡到底怎麼活。
作者怎麼做?
論文用了 LLaVA-1.5-7B 當主要受測模型,刻意把攻擊面收斂到 projector-only fine-tuning。也就是說,vision encoder 不動、LLM 主體不動,只調 projector。
然後他們在 10% poisoning rate 下,做了四種代表性 backdoor:
- Targeted Refusal:看到 trigger 後,模型開始拒答
- Malicious Injection:在正常輸出後面偷偷加上惡意文字
- Perceptual Hijack:讓圖片描述被帶去別的目標圖像語意
- Jailbreak Output:透過風格轉換 trigger 逼出越獄行為
這四種設計很聰明,因為它們涵蓋的不是單一 failure mode,而是四種不同的安全破壞方向:
- 可用性被摧毀(拒答)
- 輸出完整性被污染(惡意注入)
- 感知語意被劫持(perceptual hijack)
- 安全政策被繞過(jailbreak)
也就是說,論文不是在證明某個特例,而是在暗示:projector 可能是一個足夠通用的攻擊入口。
最值得記住的第一組數字:只調 projector,也能把攻擊打得很成功
Table 1 的結果很直白,而且有點嚇人。
- Targeted Refusal:ASR 91.8%
- Malicious Injection:ASR 98.3%
- Perceptual Hijack:ASR 97.0%
- Jailbreak Output:ASR 82.0%
但更麻煩的不是這些 trigger 命中時會失控,而是它在大多數情況下還看起來維持正常功能。
作者發現 backdoored model 在一般能力上沒有整體崩壞,甚至某些 clean task 表現還上升。像是 Targeted Refusal 場景裡,clean samples accuracy 從 57.92% → 66.67%。這代表什麼?
代表 backdoor 不是靠把整個模型搞爛才生效,而是跟正常任務學習一起被 projector 吃進去。
這對實務非常不舒服。因為如果一個被污染的 projector 看起來 still useful、甚至在某些 benchmark 上還變好,那很多團隊就更容易把它當成「只是一次成功調校」。
只看 ASR 還不夠,因為 clean 狀態也可能已經被悄悄帶偏
這篇我很喜歡的一點,是作者沒有只用 ASR 做攻擊評估,而是補了一個更細的指標:Pbkd,也就是模型輸出往 backdoor target 偏移的機率。
這個指標很關鍵,因為它抓到了一種很多安全團隊容易漏掉的狀態:模型表面上還沒正式出錯,但輸出分佈早就往危險方向滑。
論文裡最漂亮的例子是 Targeted Refusal。即使 clean samples 上的 ASR 幾乎還是 0,Pbkd 卻從 13.30% → 50.87%。也就是說,模型即使沒被明確觸發,內部也已經明顯更傾向產生 backdoor 目標行為。
這個發現很值得放大,因為它等於在提醒大家:
- 很多 backdoor 不是「平常沒事、觸發才爆」這麼二元
- 它可能先改變的是整個 decision distribution
- 真正危險的,是你拿離散成功率看起來沒事,就誤以為模型仍然乾淨
ProjLens 真正厲害的地方:它開始回答「backdoor 被存在哪裡」
論文最核心的技術貢獻,是用一整套 interpretability 流程去拆 projector 裡的 backdoor 機制,包括:
- Visual Trigger Probe(VTP)
- 對 projector delta weights 做 SVD
- 對 embedding shift 做 SVD
- 分析 neuron activation pattern
先講最重要的結論:
多模態 backdoor 在 projector 的整體權重更新上,看起來不是一條很突出的「惡意方向」;但真正在控制 backdoor 的關鍵參數,卻會自然集中到低秩子空間裡。
這個結論很漂亮,因為它同時成立兩件表面矛盾的事:
- 整體 weight delta 看起來很 diffuse、很 full-rank,不像有明顯 trigger neuron
- 但只要抓對低秩成分,就能把 backdoor 移除或重建回來
作者把這件事叫做一種「paradox」,我覺得很合理。因為它直接說明:如果你只做粗粒度權重檢查,很可能完全看不出問題;但攻擊功能其實又不是平均灑在整個 projector 裡,而是集中在少數結構化方向上。
幾個我覺得最有意思的數字
先看 VTP,也就是作者訓練一個 probe 去判斷 projector 輸出的視覺 embedding 裡,trigger feature 是否已經被分離出來。
Table 2 的結果是:
- Targeted Refusal:F1 85.68%
- Malicious Injection:F1 82.11%
- Perceptual Hijack:F1 71.00%
- Jailbreak Output:F1 98.16%
這組結果有兩個意思。
第一,trigger 不是純粹只活在像素空間。它會被 projector 映成可分離的 latent feature。第二,這個 separability 跟攻擊是否成功高度相關。論文甚至看到注入失敗的 backdoor case,VTP 分數也會一起掉很兇。
換句話說,作者在這裡其實講了一件很實務的事:
成功的 multimodal backdoor,不只是因為輸入裡有某塊 trigger,而是因為 projector 真的學會把那個 trigger 從正常語意裡 disentangle 出來。
最關鍵的 mechanistic insight:不是 trigger neuron,而是 universal drift
我覺得這篇最有料的,不在 VTP,而在後半段對 embedding shift 的分析。
作者發現 clean 和 poisoned image token 在 projector 輸出空間裡,會共同往一個幾乎一致的方向漂移。論文把它叫做 universal drift vector。
更具體地說:
- shift direction 高度一致,文中提到相似度可到 99.81 ± 0.06
- 真正區分 clean / poisoned 的,不是漂移方向不同
- 而是每個 token 沿著這個方向被推多遠,也就是 drift magnitude 不同
而這裡最漂亮的一刀是:這個 drift magnitude 跟 image feature 的 L2 norm 幾乎線性相關。作者報告 Pearson correlation > 0.95。
這代表什麼?代表多模態 backdoor 的觸發,不太像文字模型裡那種「一個特定神經元被點亮」的故事;它更像是:
- trigger 先改變部分視覺 token 的 feature norm
- projector 再把這些 token 沿著同一條危險語意方向推得更遠
- 最後把整體生成行為拉向拒答、惡意注入或越獄輸出
我很喜歡這個解釋,因為它讓「為什麼平常也會有 latent bias、但 greedy sampling 還沒完全爆」變得比較說得通:clean input 也會被往那個方向推,但推得不夠遠;trigger 只是把幾個關鍵 token 的位移量放大到足以改變最終行為。
這篇對 defense 的啟發,比 attack demo 本身更有價值
論文不只拆解機制,還順手證明一件很關鍵的事:既然 backdoor-critical parameters 會集中到低秩子空間,那就有機會沿著這個結構做 mitigation。
Table 3 裡一個最值得記住的例子是 Jailbreak Output。原本 backdoored model 的 utility 掉到 28.91%,但只要把 ΔW1 的 rank-1 成分拿掉,utility 可以直接回升到 86.91%。
反過來,作者也證明低秩近似不只可拿來消毒,還能拿來重建 backdoor。像在某些設定下,對 W1 與 W2 做 rank-3 recovery,就能把 ASR 重建到 75.4%;更高 rank 時甚至可逼近 88%~90% 的水準。
這段結果很重要,因為它告訴你:
- backdoor 不是完全 diffuse 到不可處理
- 也不是簡單一個 neuron 就能拔掉
- 它比較像一個低秩但有功能性的控制子空間
對防守方來說,這意味著未來真正值得投資的方向,也許不是只做輸入 trigger 掃描,而是:
- 對 projector 殘差做低秩分析
- 監測可疑 drift direction
- 在 deployment 或 fine-tune 審核時,把 projector 當成高風險供應鏈組件來驗
我怎麼看這篇?
如果要一句話講完,我會這樣說:
很多 MLLM safety 真正危險的,不是模型主體突然學壞,而是那層大家最容易覺得只是「轉接器」的 projector,已經足夠把視覺訊號穩定翻譯成危險行為。
ProjLens 的貢獻,不只是在多模態 backdoor 這條線再加一篇 attack paper,而是把問題往前推到 mechanistic level。它讓我們開始能比較具體地說:
- backdoor 不一定靠顯眼 trigger neuron
- projector 的整體權重更新可能看起來很普通
- 真正有毒的是低秩子空間與一條會把表示往危險語意推的 universal drift
這個 insight 很值錢,因為它把防禦問題從「怎麼抓輸入裡那塊 trigger」往前移成「怎麼驗 projector 這個 adaptation layer 到底學到了什麼」。
這篇對實務團隊最值得帶走的三件事
- Projector 不是低風險零件。 如果你的 MLLM pipeline 允許 projector 微調、下載、替換,那它就已經是安全邊界的一部分。
- 只看離散 ASR 不夠。 clean 狀態下的 latent bias 可能早就上升,像 Pbkd 這類機率型指標更能提早看到系統已被帶偏。
- Interpretability 可以直接變成 defense 線索。 低秩殘差分析、drift 監測、projector attestation 這類方向,比單純黑箱 benchmark 更有機會變成可落地的防線。
總結
Unveiling the Role of Projectors in Multimodal Model Safety 這篇論文最重要的地方,不只是證明 projector-only fine-tuning 足以注入高成功率 backdoor,而是進一步把多模態 backdoor 的內部工作機制拆了開來。
作者在 LLaVA-1.5-7B 上展示,四類 backdoor 都能打出很高 ASR;同時又指出,真正危險的不只是觸發後的錯誤行為,而是模型在 clean 狀態下也可能已經出現明顯的輸出偏移。更關鍵的是,論文發現 backdoor 並非以明顯 trigger neuron 的形式存在,而是藏在 projector 的低秩關鍵子空間與一條語意上對齊 backdoor target 的universal drift vector裡。
真正值得記住的結論是:在多模態模型安全裡,projector 不是配角;它可能正是把正常視覺理解悄悄翻譯成危險行為的那個關鍵轉換層。
免責聲明
本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
