Multimodal Security

2026

SnapGuard 論文閱讀分析:很多 screenshot-based web agent 真正缺的,不是更大的模型,而是先有夠快的第一道守門員

這篇論文真正補到的,不是再提醒一次 web agent 會被頁面上的惡意指令帶偏,而是把問題切到 screenshot-based agent 的真實痛點:當模型看到的是整張被渲染過的畫面時,text-only guardrail 常常不夠,而每一步都丟大 VLM 又太重。作者提出 SnapGuard,用視覺穩定性與 action-oriented 文字訊號做輕量級多模態檢測,重點不是追求完美,而是替 browser agent 補上一個夠快、夠便宜、能先攔下可疑畫面的第一道守門員。

2026 年 4 月 29 日

ProjLens 論文閱讀分析:很多多模態模型真正危險的,不是主模型突然學壞,而是那層 projector 早就把視覺訊號悄悄翻成危險行為

這篇論文最有價值的地方,不只是證明多模態 backdoor 可以打得很成功,而是把問題往前推到 mechanistic level:作者發現就算只 fine-tune projector,也足以把拒答、惡意注入、感知劫持與越獄行為種進 MLLM,真正的關鍵不是顯眼的 trigger neuron,而是 projector 低秩子空間裡的 backdoor 參數與一條把表示往危險語意推的 universal drift vector。

2026 年 4 月 22 日

Audio LLM 論文閱讀分析:很多模型真正不是被惡意資料教壞,而是被那些看起來正常的聲音慢慢磨掉拒答邊界

這篇論文最值得注意的地方,是它證明 Audio LLM 的安全邊界不只會被惡意資料拉垮;就連語意上無害、但在表示空間裡靠近 harmful content 的 benign audio,也可能讓 Jailbreak Success Rate 大幅飆升,顯示多模態安全真正脆弱的地方常在聲學與語意交纏的內部表示幾何。

2026 年 4 月 22 日

Visual Inception 論文閱讀分析:最危險的圖片,不一定當下就有毒,而是之後會被 Agent 自己重新想起來的那張

這篇論文最值得看的,不是它又示範了一次多模態攻擊,而是它證明:在會保存長期記憶、之後再拿來做規劃的 agent 系統裡,一張今天看起來正常的圖片,也能變成明天悄悄接管推薦方向的 sleeper agent。真正的風險,不只是輸入有毒,而是有毒輸入被你收進記憶之後,還會被系統自己重新想起來。

2026 年 4 月 22 日

WebAgentGuard 論文閱讀分析:當 Web Agent 真正需要的,不是更長的提示詞,而是一個會先說「先別動」的平行 Guard

這篇論文真正往前推的一點,是把 web agent 的安全判斷從主 agent 的 task reasoning 裡拆出來,變成一個平行運作的 guard model。它不只是再補一句 system prompt,而是在每一步 action 落地前,先讓另一個多模態 guard 檢查 HTML、screenshot 與使用者目標之間是否出現 prompt injection 風險。

2026 年 4 月 17 日