ProjLens 論文閱讀分析:很多多模態模型真正危險的,不是主模型突然學壞,而是那層 projector 早就把視覺訊號悄悄翻成危險行為

論文基本資訊

  • 論文標題:Unveiling the Role of Projectors in Multimodal Model Safety
  • 年份:2026
  • 來源:arXiv:2604.19083
  • 論文連結:https://arxiv.org/abs/2604.19083
  • DOI:10.48550/arXiv.2604.19083
  • 主題:Multimodal Security、MLLM Safety、Backdoor Attacks、Projector Fine-Tuning、Mechanistic Interpretability、AI Supply Chain Security

很多人在看多模態模型安全時,第一直覺都還停在:問題應該出在 vision encoder、主模型本體,或整包 training data 太髒。

但這篇 ProjLens 真正要戳破的是另一件更麻煩的事:你以為只是中間那層拿來把視覺特徵接到語言模型的 projector,很可能就已經足夠把整個 MLLM 的安全行為帶歪。

這篇最值得記住的主張,不是「多模態 backdoor 存在」這件事本身,而是:就算只 fine-tune projector,攻擊者也可能把拒答、越獄、惡意注入這些危險行為穩定種進去。

這個 framing 很重要。因為它直接改寫了很多團隊的風險假設:如果 projector 被當成只是便宜、無害、可替換的 adaptation layer,那很多看似「只動小地方」的調校流程,安全上其實根本沒有你想的那麼小。

這篇真正打到的痛點是什麼?

作者關注的是 MLLM backdoor 的機制問題,而不是只做一輪攻擊 demo。

以前不少工作已經證明,透過 poisoned fine-tuning data,可以讓多模態模型在看到特定 trigger 圖像時出現錯誤或危險行為。但大多數研究停在兩層:

  • 證明 attack success rate 很高
  • 設計更隱蔽的 trigger 或更有效的 poisoning 策略

ProjLens 要追的是更深一層的問題:

  • 這些 backdoor 到底被模型存在哪裡?
  • 它到底是靠哪種表示偏移被觸發?
  • 為什麼只動 projector,也能改掉整個模型的安全行為?

我覺得這篇的價值就在這裡:它不是再多做一個能打的 backdoor,而是開始拆解多模態 backdoor 在 projector 裡到底怎麼活。

作者怎麼做?

論文用了 LLaVA-1.5-7B 當主要受測模型,刻意把攻擊面收斂到 projector-only fine-tuning。也就是說,vision encoder 不動、LLM 主體不動,只調 projector。

然後他們在 10% poisoning rate 下,做了四種代表性 backdoor:

  1. Targeted Refusal:看到 trigger 後,模型開始拒答
  2. Malicious Injection:在正常輸出後面偷偷加上惡意文字
  3. Perceptual Hijack:讓圖片描述被帶去別的目標圖像語意
  4. Jailbreak Output:透過風格轉換 trigger 逼出越獄行為

這四種設計很聰明,因為它們涵蓋的不是單一 failure mode,而是四種不同的安全破壞方向:

  • 可用性被摧毀(拒答)
  • 輸出完整性被污染(惡意注入)
  • 感知語意被劫持(perceptual hijack)
  • 安全政策被繞過(jailbreak)

也就是說,論文不是在證明某個特例,而是在暗示:projector 可能是一個足夠通用的攻擊入口。

最值得記住的第一組數字:只調 projector,也能把攻擊打得很成功

Table 1 的結果很直白,而且有點嚇人。

  • Targeted Refusal:ASR 91.8%
  • Malicious Injection:ASR 98.3%
  • Perceptual Hijack:ASR 97.0%
  • Jailbreak Output:ASR 82.0%

但更麻煩的不是這些 trigger 命中時會失控,而是它在大多數情況下還看起來維持正常功能

作者發現 backdoored model 在一般能力上沒有整體崩壞,甚至某些 clean task 表現還上升。像是 Targeted Refusal 場景裡,clean samples accuracy 從 57.92% → 66.67%。這代表什麼?

代表 backdoor 不是靠把整個模型搞爛才生效,而是跟正常任務學習一起被 projector 吃進去。

這對實務非常不舒服。因為如果一個被污染的 projector 看起來 still useful、甚至在某些 benchmark 上還變好,那很多團隊就更容易把它當成「只是一次成功調校」。

只看 ASR 還不夠,因為 clean 狀態也可能已經被悄悄帶偏

這篇我很喜歡的一點,是作者沒有只用 ASR 做攻擊評估,而是補了一個更細的指標:Pbkd,也就是模型輸出往 backdoor target 偏移的機率。

這個指標很關鍵,因為它抓到了一種很多安全團隊容易漏掉的狀態:模型表面上還沒正式出錯,但輸出分佈早就往危險方向滑。

論文裡最漂亮的例子是 Targeted Refusal。即使 clean samples 上的 ASR 幾乎還是 0,Pbkd 卻從 13.30% → 50.87%。也就是說,模型即使沒被明確觸發,內部也已經明顯更傾向產生 backdoor 目標行為。

這個發現很值得放大,因為它等於在提醒大家:

  • 很多 backdoor 不是「平常沒事、觸發才爆」這麼二元
  • 它可能先改變的是整個 decision distribution
  • 真正危險的,是你拿離散成功率看起來沒事,就誤以為模型仍然乾淨

ProjLens 真正厲害的地方:它開始回答「backdoor 被存在哪裡」

論文最核心的技術貢獻,是用一整套 interpretability 流程去拆 projector 裡的 backdoor 機制,包括:

  • Visual Trigger Probe(VTP)
  • 對 projector delta weights 做 SVD
  • 對 embedding shift 做 SVD
  • 分析 neuron activation pattern

先講最重要的結論:

多模態 backdoor 在 projector 的整體權重更新上,看起來不是一條很突出的「惡意方向」;但真正在控制 backdoor 的關鍵參數,卻會自然集中到低秩子空間裡。

這個結論很漂亮,因為它同時成立兩件表面矛盾的事:

  • 整體 weight delta 看起來很 diffuse、很 full-rank,不像有明顯 trigger neuron
  • 但只要抓對低秩成分,就能把 backdoor 移除或重建回來

作者把這件事叫做一種「paradox」,我覺得很合理。因為它直接說明:如果你只做粗粒度權重檢查,很可能完全看不出問題;但攻擊功能其實又不是平均灑在整個 projector 裡,而是集中在少數結構化方向上。

幾個我覺得最有意思的數字

先看 VTP,也就是作者訓練一個 probe 去判斷 projector 輸出的視覺 embedding 裡,trigger feature 是否已經被分離出來。

Table 2 的結果是:

  • Targeted Refusal:F1 85.68%
  • Malicious Injection:F1 82.11%
  • Perceptual Hijack:F1 71.00%
  • Jailbreak Output:F1 98.16%

這組結果有兩個意思。

第一,trigger 不是純粹只活在像素空間。它會被 projector 映成可分離的 latent feature。第二,這個 separability 跟攻擊是否成功高度相關。論文甚至看到注入失敗的 backdoor case,VTP 分數也會一起掉很兇。

換句話說,作者在這裡其實講了一件很實務的事:

成功的 multimodal backdoor,不只是因為輸入裡有某塊 trigger,而是因為 projector 真的學會把那個 trigger 從正常語意裡 disentangle 出來。

最關鍵的 mechanistic insight:不是 trigger neuron,而是 universal drift

我覺得這篇最有料的,不在 VTP,而在後半段對 embedding shift 的分析。

作者發現 clean 和 poisoned image token 在 projector 輸出空間裡,會共同往一個幾乎一致的方向漂移。論文把它叫做 universal drift vector

更具體地說:

  • shift direction 高度一致,文中提到相似度可到 99.81 ± 0.06
  • 真正區分 clean / poisoned 的,不是漂移方向不同
  • 而是每個 token 沿著這個方向被推多遠,也就是 drift magnitude 不同

而這裡最漂亮的一刀是:這個 drift magnitude 跟 image feature 的 L2 norm 幾乎線性相關。作者報告 Pearson correlation > 0.95

這代表什麼?代表多模態 backdoor 的觸發,不太像文字模型裡那種「一個特定神經元被點亮」的故事;它更像是:

  • trigger 先改變部分視覺 token 的 feature norm
  • projector 再把這些 token 沿著同一條危險語意方向推得更遠
  • 最後把整體生成行為拉向拒答、惡意注入或越獄輸出

我很喜歡這個解釋,因為它讓「為什麼平常也會有 latent bias、但 greedy sampling 還沒完全爆」變得比較說得通:clean input 也會被往那個方向推,但推得不夠遠;trigger 只是把幾個關鍵 token 的位移量放大到足以改變最終行為。

這篇對 defense 的啟發,比 attack demo 本身更有價值

論文不只拆解機制,還順手證明一件很關鍵的事:既然 backdoor-critical parameters 會集中到低秩子空間,那就有機會沿著這個結構做 mitigation。

Table 3 裡一個最值得記住的例子是 Jailbreak Output。原本 backdoored model 的 utility 掉到 28.91%,但只要把 ΔW1 的 rank-1 成分拿掉,utility 可以直接回升到 86.91%

反過來,作者也證明低秩近似不只可拿來消毒,還能拿來重建 backdoor。像在某些設定下,對 W1 與 W2 做 rank-3 recovery,就能把 ASR 重建到 75.4%;更高 rank 時甚至可逼近 88%~90% 的水準。

這段結果很重要,因為它告訴你:

  • backdoor 不是完全 diffuse 到不可處理
  • 也不是簡單一個 neuron 就能拔掉
  • 它比較像一個低秩但有功能性的控制子空間

對防守方來說,這意味著未來真正值得投資的方向,也許不是只做輸入 trigger 掃描,而是:

  • 對 projector 殘差做低秩分析
  • 監測可疑 drift direction
  • 在 deployment 或 fine-tune 審核時,把 projector 當成高風險供應鏈組件來驗

我怎麼看這篇?

如果要一句話講完,我會這樣說:

很多 MLLM safety 真正危險的,不是模型主體突然學壞,而是那層大家最容易覺得只是「轉接器」的 projector,已經足夠把視覺訊號穩定翻譯成危險行為。

ProjLens 的貢獻,不只是在多模態 backdoor 這條線再加一篇 attack paper,而是把問題往前推到 mechanistic level。它讓我們開始能比較具體地說:

  • backdoor 不一定靠顯眼 trigger neuron
  • projector 的整體權重更新可能看起來很普通
  • 真正有毒的是低秩子空間與一條會把表示往危險語意推的 universal drift

這個 insight 很值錢,因為它把防禦問題從「怎麼抓輸入裡那塊 trigger」往前移成「怎麼驗 projector 這個 adaptation layer 到底學到了什麼」。

這篇對實務團隊最值得帶走的三件事

  1. Projector 不是低風險零件。 如果你的 MLLM pipeline 允許 projector 微調、下載、替換,那它就已經是安全邊界的一部分。
  2. 只看離散 ASR 不夠。 clean 狀態下的 latent bias 可能早就上升,像 Pbkd 這類機率型指標更能提早看到系統已被帶偏。
  3. Interpretability 可以直接變成 defense 線索。 低秩殘差分析、drift 監測、projector attestation 這類方向,比單純黑箱 benchmark 更有機會變成可落地的防線。

總結

Unveiling the Role of Projectors in Multimodal Model Safety 這篇論文最重要的地方,不只是證明 projector-only fine-tuning 足以注入高成功率 backdoor,而是進一步把多模態 backdoor 的內部工作機制拆了開來。

作者在 LLaVA-1.5-7B 上展示,四類 backdoor 都能打出很高 ASR;同時又指出,真正危險的不只是觸發後的錯誤行為,而是模型在 clean 狀態下也可能已經出現明顯的輸出偏移。更關鍵的是,論文發現 backdoor 並非以明顯 trigger neuron 的形式存在,而是藏在 projector 的低秩關鍵子空間與一條語意上對齊 backdoor target 的universal drift vector裡。

真正值得記住的結論是:在多模態模型安全裡,projector 不是配角;它可能正是把正常視覺理解悄悄翻譯成危險行為的那個關鍵轉換層。

免責聲明

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like