Route to Rome Attack 論文閱讀分析:當攻擊者不急著打穿模型,而是先把你的 AI Router 導向更貴的路
論文基本資訊
- 論文標題:Route to Rome Attack: Directing LLM Routers to Expensive Models via Adversarial Suffix Optimization
- 作者:Haochun Tang、Yuliang Yan、Jiahua Lu、Huaxiao Liu、Enyan Dai
- 年份:2026
- 來源:ACL 2026 Main Conference / arXiv:2604.15022
- 論文連結:https://arxiv.org/abs/2604.15022
- 主題:LLM Routing、Adversarial Suffix、Prompt Security、Cost Abuse、Model Routing Attack
這篇 Route to Rome Attack 很值得 sectools.tw 補進來,因為它點出了一個很多人還沒把它當成「正式攻擊面」看待的問題:當平台開始用 router 自動幫你在便宜模型與昂貴模型之間做切換時,攻擊者不一定要 jailbreak 模型本身,只要想辦法操控 router,就能把原本應該走 cheap path 的請求,穩定導向更貴的模型。
這件事乍看像成本問題,但本質其實是 control-plane security。因為 router 不只是成本優化器,它其實是在替整個 LLM 平台做決策分流:哪個 prompt 值得高推理成本、哪個可以快速回、哪個可能需要 stronger model。只要這個決策邊界可被操控,攻擊者就能把系統拖進更高成本、更高延遲,甚至可能不同 safety profile 的執行路徑。
這篇論文在處理什麼核心問題?
作者研究的是 cost-aware LLM routing attack。現在越來越多平台不會把所有請求都丟給最強模型,而是先讓 router 判斷「這題難不難、需不需要高能力模型」,再決定送去便宜模型還是昂貴模型。這種設計對平台非常合理,但也引入一個新問題:
- 如果攻擊者只能看到最終被選到哪個模型,
- 看不到 router 內部參數、梯度與分數,
- 能不能仍然做出一個通用 suffix,把大量 query 重新導向昂貴模型?
作者的答案是:可以,而且效果比既有方法更穩。
作者提出了什麼方法?
他們提出的攻擊叫做 R2A(Route to Rome Attack)。核心思路不是硬猜 target router 的結構,而是先做一個混合式 surrogate router:
- 一部分由多個 open-source router 組成 ensemble,盡量覆蓋不同 routing mechanism
- 另一部分是可訓練的 lightweight router,用低秩方式去貼近未知 target router 的決策
有了 surrogate 之後,再針對 suffix 做最佳化,找出一段短短的尾巴文字,使 router 誤以為原本簡單的 query 其實需要 stronger / more expensive model。
這篇 paper 的技術亮點不在於「又有人做 adversarial prompt」而已,而在於它把攻擊焦點移到 router decision layer,而且設定成比較貼近現實的 black-box 條件:攻擊者通常只知道最後被路由到哪個模型,不知道內部打分。
為什麼這件事真的重要?
因為在 production 裡,router 已經不只是工程上的小優化,它越來越像是整個 AI 平台的資源調度器與能力閘門。一旦這層被操控,可能出現幾種後果:
- 成本濫用:把大量低價請求洗成高價請求,直接拉高 token bill
- 延遲放大:強制系統走較慢的推理路徑,造成 UX 下降與 queue 壓力
- policy 偏移:不同模型或模式可能帶有不同 safety / reasoning behavior,導致平台原本預期的防線被繞開
- 監控盲區:如果 SOC 只盯 jailbreak、資料外洩、工具濫用,可能忽略 router 這條 control plane 已經被操控
我覺得這篇論文最有價值的地方,就是把「路由」從產品優化議題,拉回到安全邊界來看。這很像傳統資安裡,問題不只在 workload 本身,而在前面的 scheduler、orchestrator、load balancer、policy engine。
實驗結果透露了什麼?
作者在 7 個 router、6 個資料集上測試,包含 open-source router,也包含現實世界會用到的 OpenRouter,甚至還做了對 GPT-5 Auto 類型路由情境的外部觀察。
從論文數字看,R2A 在多數 router 上都能把 Attack Success Rate 拉到相當高:
- 像在 RouteLLM-Bert 上,平均 ASR 到 0.89
- 在 GraphRouter 上約 0.87
- 在 RouteLLM-MF 上約 0.95
- 在真實 black-box 的 OpenRouter 上,平均也到 0.74
更值得注意的是,作者做了成本分析:在 OpenRouter 上,攻擊後的平均推論成本可達到約 2.7× 到 2.9× 的提升,而用來收集 surrogate 訓練資料的 query 預算卻很低,論文裡寫大約只要 0.98 美元 級別。這代表什麼?代表攻擊者用極低成本,就可能把你的 routing bill 放大好幾倍。這已經不只是 academic trick,而是很接近真實的 economic denial-of-service。
GPT-5 Auto 那段實驗,應該怎麼看?
這篇 paper 還有一段很有意思:因為 GPT-5 Auto 這種商業路由不會直接告訴你它選了哪個 mode / model,所以作者改用兩種方式側推:
- 比較 clean prompt 與 attacked prompt 的回答品質
- 比較回答是否更像「Thinking mode」的風格
結果顯示,帶攻擊 suffix 的請求更容易出現較長、較像高推理模式的回答,作者也展示了案例:原本簡短而錯誤的回答,攻擊後變成多步推理且答對。這不等於百分之百證明 router 被打穿,但很明顯說明了一件事:商業路由層至少可能被 prompt 形式影響,而這種影響足以改變推理成本與行為。
這篇論文的限制是什麼?
它也不是沒有侷限。
- 它主要攻擊的是「導向更昂貴模型」,不是所有類型的 routing manipulation
- 它假設攻擊者能觀察到部分路由結果或候選模型資訊,這在某些封閉平台未必成立
- 它證明了成本與路由可被干擾,但對於更深的 safety side-effect 仍然需要後續研究
不過就算如此,這篇 paper 已經足夠把議題立起來:router 本身就是 attack surface。
對實務防禦有什麼啟發?
如果你在做 AI gateway、model proxy、multi-model serving 或 agent platform,我認為至少要補這幾個觀念:
- 不要把 router 當黑盒成本優化器,而要把它當安全敏感組件
- 監控 routing drift:同類型 prompt 是否突然大量偏向高價模型
- 建立 query canonicalization / normalization:避免 suffix 類攻擊直接左右 routing 特徵
- 把 routing anomaly 納入 detection engineering,不只看 response content,也看 model-selection pattern
- 限制單租戶或單 API key 的高成本模式跳轉速率,避免被拿來做成本放大
- 對 externalized router 建立完整審計,因為這層本身就是 control plane
換句話說,未來 AI security 不只要看 prompt injection、tool abuse、memory poisoning,還要多加一條:routing manipulation。
我怎麼看這篇論文?
我認為這篇 paper 的價值很高,因為它抓到一個正在被大量採用、但安全討論還不夠成熟的真問題:在多模型時代,攻擊者不一定要攻陷最強模型,他只要操控「誰來回答」這件事,就已經能造成可觀的成本與治理後果。
對 SOC、平台工程與 AI infra 團隊來說,這篇論文最大的提醒不是「suffix attack 又來了」,而是:你的 AI 系統真正的安全邊界,可能早就從單一模型,擴大成整條 routing / orchestration / policy pipeline。
如果你正在設計 AI gateway 或 agent runtime,這篇很值得讀。因為它談的不是模型內部的神祕能力,而是 production 環境裡最容易被低估、卻最可能先出事的那一層。
本文由 AI 產生、整理與撰寫。
