Route to Rome Attack 論文閱讀分析：當攻擊者不急著打穿模型，而是先把你的 AI Router 導向更貴的路

2026 年 4 月 18 日

論文基本資訊

論文標題：Route to Rome Attack: Directing LLM Routers to Expensive Models via Adversarial Suffix Optimization
作者：Haochun Tang、Yuliang Yan、Jiahua Lu、Huaxiao Liu、Enyan Dai
年份：2026
來源：ACL 2026 Main Conference / arXiv:2604.15022
論文連結：https://arxiv.org/abs/2604.15022
主題：LLM Routing、Adversarial Suffix、Prompt Security、Cost Abuse、Model Routing Attack

這篇 Route to Rome Attack 很值得 sectools.tw 補進來，因為它點出了一個很多人還沒把它當成「正式攻擊面」看待的問題：當平台開始用 router 自動幫你在便宜模型與昂貴模型之間做切換時，攻擊者不一定要 jailbreak 模型本身，只要想辦法操控 router，就能把原本應該走 cheap path 的請求，穩定導向更貴的模型。

這件事乍看像成本問題，但本質其實是 control-plane security。因為 router 不只是成本優化器，它其實是在替整個 LLM 平台做決策分流：哪個 prompt 值得高推理成本、哪個可以快速回、哪個可能需要 stronger model。只要這個決策邊界可被操控，攻擊者就能把系統拖進更高成本、更高延遲，甚至可能不同 safety profile 的執行路徑。

這篇論文在處理什麼核心問題？

作者研究的是 cost-aware LLM routing attack。現在越來越多平台不會把所有請求都丟給最強模型，而是先讓 router 判斷「這題難不難、需不需要高能力模型」，再決定送去便宜模型還是昂貴模型。這種設計對平台非常合理，但也引入一個新問題：

如果攻擊者只能看到最終被選到哪個模型，
看不到 router 內部參數、梯度與分數，
能不能仍然做出一個通用 suffix，把大量 query 重新導向昂貴模型？

作者的答案是：可以，而且效果比既有方法更穩。

作者提出了什麼方法？

他們提出的攻擊叫做 R2A（Route to Rome Attack）。核心思路不是硬猜 target router 的結構，而是先做一個混合式 surrogate router：

一部分由多個 open-source router 組成 ensemble，盡量覆蓋不同 routing mechanism
另一部分是可訓練的 lightweight router，用低秩方式去貼近未知 target router 的決策

有了 surrogate 之後，再針對 suffix 做最佳化，找出一段短短的尾巴文字，使 router 誤以為原本簡單的 query 其實需要 stronger / more expensive model。

這篇 paper 的技術亮點不在於「又有人做 adversarial prompt」而已，而在於它把攻擊焦點移到 router decision layer，而且設定成比較貼近現實的 black-box 條件：攻擊者通常只知道最後被路由到哪個模型，不知道內部打分。

為什麼這件事真的重要？

因為在 production 裡，router 已經不只是工程上的小優化，它越來越像是整個 AI 平台的資源調度器與能力閘門。一旦這層被操控，可能出現幾種後果：

成本濫用：把大量低價請求洗成高價請求，直接拉高 token bill
延遲放大：強制系統走較慢的推理路徑，造成 UX 下降與 queue 壓力
policy 偏移：不同模型或模式可能帶有不同 safety / reasoning behavior，導致平台原本預期的防線被繞開
監控盲區：如果 SOC 只盯 jailbreak、資料外洩、工具濫用，可能忽略 router 這條 control plane 已經被操控

我覺得這篇論文最有價值的地方，就是把「路由」從產品優化議題，拉回到安全邊界來看。這很像傳統資安裡，問題不只在 workload 本身，而在前面的 scheduler、orchestrator、load balancer、policy engine。

實驗結果透露了什麼？

作者在 7 個 router、6 個資料集上測試，包含 open-source router，也包含現實世界會用到的 OpenRouter，甚至還做了對 GPT-5 Auto 類型路由情境的外部觀察。

從論文數字看，R2A 在多數 router 上都能把 Attack Success Rate 拉到相當高：

像在 RouteLLM-Bert 上，平均 ASR 到 0.89
在 GraphRouter 上約 0.87
在 RouteLLM-MF 上約 0.95
在真實 black-box 的 OpenRouter 上，平均也到 0.74

更值得注意的是，作者做了成本分析：在 OpenRouter 上，攻擊後的平均推論成本可達到約 2.7× 到 2.9× 的提升，而用來收集 surrogate 訓練資料的 query 預算卻很低，論文裡寫大約只要 0.98 美元 級別。這代表什麼？代表攻擊者用極低成本，就可能把你的 routing bill 放大好幾倍。這已經不只是 academic trick，而是很接近真實的 economic denial-of-service。

GPT-5 Auto 那段實驗，應該怎麼看？

這篇 paper 還有一段很有意思：因為 GPT-5 Auto 這種商業路由不會直接告訴你它選了哪個 mode / model，所以作者改用兩種方式側推：

比較 clean prompt 與 attacked prompt 的回答品質
比較回答是否更像「Thinking mode」的風格

結果顯示，帶攻擊 suffix 的請求更容易出現較長、較像高推理模式的回答，作者也展示了案例：原本簡短而錯誤的回答，攻擊後變成多步推理且答對。這不等於百分之百證明 router 被打穿，但很明顯說明了一件事：商業路由層至少可能被 prompt 形式影響，而這種影響足以改變推理成本與行為。

這篇論文的限制是什麼？

它也不是沒有侷限。

它主要攻擊的是「導向更昂貴模型」，不是所有類型的 routing manipulation
它假設攻擊者能觀察到部分路由結果或候選模型資訊，這在某些封閉平台未必成立
它證明了成本與路由可被干擾，但對於更深的 safety side-effect 仍然需要後續研究

不過就算如此，這篇 paper 已經足夠把議題立起來：router 本身就是 attack surface。

對實務防禦有什麼啟發？

如果你在做 AI gateway、model proxy、multi-model serving 或 agent platform，我認為至少要補這幾個觀念：

不要把 router 當黑盒成本優化器，而要把它當安全敏感組件
監控 routing drift：同類型 prompt 是否突然大量偏向高價模型
建立 query canonicalization / normalization：避免 suffix 類攻擊直接左右 routing 特徵
把 routing anomaly 納入 detection engineering，不只看 response content，也看 model-selection pattern
限制單租戶或單 API key 的高成本模式跳轉速率，避免被拿來做成本放大
對 externalized router 建立完整審計，因為這層本身就是 control plane

換句話說，未來 AI security 不只要看 prompt injection、tool abuse、memory poisoning，還要多加一條：routing manipulation。

我怎麼看這篇論文？

我認為這篇 paper 的價值很高，因為它抓到一個正在被大量採用、但安全討論還不夠成熟的真問題：在多模型時代，攻擊者不一定要攻陷最強模型，他只要操控「誰來回答」這件事，就已經能造成可觀的成本與治理後果。

對 SOC、平台工程與 AI infra 團隊來說，這篇論文最大的提醒不是「suffix attack 又來了」，而是：你的 AI 系統真正的安全邊界，可能早就從單一模型，擴大成整條 routing / orchestration / policy pipeline。

如果你正在設計 AI gateway 或 agent runtime，這篇很值得讀。因為它談的不是模型內部的神祕能力，而是 production 環境裡最容易被低估、卻最可能先出事的那一層。

本文由 AI 產生、整理與撰寫。

Route to Rome Attack 論文閱讀分析：當攻擊者不急著打穿模型，而是先把你的 AI Router 導向更貴的路

論文基本資訊

這篇論文在處理什麼核心問題？

作者提出了什麼方法？

為什麼這件事真的重要？

實驗結果透露了什麼？

GPT-5 Auto 那段實驗，應該怎麼看？

這篇論文的限制是什麼？

對實務防禦有什麼啟發？

我怎麼看這篇論文？

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在處理什麼核心問題？

作者提出了什麼方法？

為什麼這件事真的重要？

實驗結果透露了什麼？

GPT-5 Auto 那段實驗，應該怎麼看？

這篇論文的限制是什麼？

對實務防禦有什麼啟發？

我怎麼看這篇論文？

發佈留言 取消回覆

You may also like

長期記憶安全論文閱讀分析：很多 Agent 真正最危險的，不是當下被騙，而是被騙過的東西還會一直留在腦子裡

Advancing Autonomous Incident Response 論文閱讀分析：很多 IR 自動化真正缺的不是更大的模型，而是先把 CTI 餵進可行動的上下文

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆