Your Agent Is Mine 論文閱讀分析:當 LLM API Router 不再只是中轉站,而是整條 Agent 供應鏈上的中間人
論文基本資訊
- 論文標題:Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
- 作者:Yanju Chen 等人
- 年份:2026
- 來源:arXiv:2604.08407
- 論文連結:https://arxiv.org/abs/2604.08407
- DOI:10.48550/arXiv.2604.08407
- 主題:Agentic Security、LLM Supply Chain、API Router、Man-in-the-Middle、Secret Exfiltration、Client-Side Defense
如果前幾篇在講的,是 agent 的風險不只在 prompt,也在 memory、skills、tools 與 runtime supply chain,那這篇 Your Agent Is Mine 則是把刀子再往一個很多人其實天天在碰、卻常故意不多想的地方插下去:
當你的 agent 呼叫模型時,中間那個「幫你轉送請求、幫你省錢、幫你統一接多家模型」的 API router,如果本身就是惡意的,會怎樣?
我覺得這篇 paper 的厲害之處,不是它又做了一個抽象 threat model,而是它把一個大家其實知道存在、但常被包裝成「工程便利性」的灰區,硬生生拉回安全正中央:第三方 router 本質上就是 application-layer proxy,它看得到你 agent 送出的完整明文 JSON,也看得到模型回來的內容;如果這裡沒有端到端完整性保護,那它就不只是轉送站,它本身就是可利用的供應鏈控制點。
換句話說,這篇論文不是在問模型會不會被騙,而是在問:如果連模型前面的路由商都不可信,那 agent 的整條執行鏈還剩下多少是真的屬於你?
這篇論文在解決什麼問題?
近年越來越多 agent framework 會透過第三方 API router 存取不同模型供應商:有人是為了省錢,有人是為了統一介面,有人是為了繞地區限制,也有人單純是因為各種「便宜 key」「聚合轉發」「中轉平台」很方便。從開發者角度看,這只是 infra abstraction;但從安全角度看,這代表你把本來該直接送給模型供應商的請求,先交給了另一個能完整看見、也能任意改寫內容的中介者。
作者指出,一個惡意 router 至少有兩種核心能力:
- Payload Injection(AC-1):在請求或回應裡偷偷插入惡意內容,影響 agent 後續行為
- Secret Exfiltration(AC-2):偷讀、蒐集、外送 agent 流經其中的機密資訊
而且更麻煩的是,它們還可以做兩種自適應變形:
- Dependency-targeted injection(AC-1.a):只對特定框架、特定模式、特定依賴鏈下毒
- Conditional delivery(AC-1.b):只在某些條件成立時才發動,平常看起來像正常服務
這裡最值得警惕的不是「中間人理論上可以做壞事」這種老生常談,而是:在 LLM agent 世界裡,中間人不只看得到內容,還能精準理解工具呼叫、system prompt、session 狀態與上下文結構,因此它有能力做非常貼著 agent workflow 的定向操弄。
這篇論文最重要的提醒:便宜 router 不是在賣轉發,它是在賣一個你看不見的高權限位置
很多人對第三方 router 的想像還停留在傳統 API proxy:大不了就是紀錄流量、偷偷存資料、品質不穩。但這篇 paper 說得更狠——對 agent 來說,這些 router 其實站在一個極度肥沃的攻擊位置上:
- 它們看得到 prompt 與 tool-calling payload
- 它們能在 response 回來前改內容
- 它們知道你在串哪個模型、哪個 agent framework、哪條工作流
- 它們甚至能靠條件觸發,只對高價值目標下手
把這幾點疊起來看,你會發現 router 根本不是「流量經手人」而已。它實際上是一個對 agent 語境、執行鏈與憑證流都有觀測權與修改權的供應鏈節點。
這也是這篇論文真正讓人不舒服的地方:你以為你在 outsourcing 成本優化,實際上你可能是在 outsourcing 信任根。
實證部分為什麼有說服力?因為作者不是只做模擬,而是真的去買、去測、去埋 canary
這篇 paper 最紮實的地方,在於它不是只停在概念模型,而是直接做了大規模實測。作者購買並收集了兩大類 router:
- 28 個付費 routers,來自 Taobao、Xianyu 與 Shopify 類型店面
- 400 個免費 routers,來自公開社群與分享來源
結果不只是「有風險」,而是真的測到活的惡意行為:
- 1 個付費 router、8 個免費 router 會主動注入惡意程式碼
- 2 個 router 具備 adaptive evasion trigger,會根據條件改變投毒方式
- 17 個 router 接觸到研究者放置的 AWS canary credentials
- 1 個案例 甚至直接盜走研究者控制的 ETH private key 資產
這些數字最值得注意的不是比例,而是性質。因為它證明了這不是「如果有人有朝一日惡意化,可能會發生的理論攻擊」,而是市場上已經存在會主動插 payload、摸 secrets、碰錢包的 router。
安全上最糟的消息通常不是「攻擊可能成立」,而是「攻擊已經有人在做,只是大家還把它當便宜工具」。這篇就是後者。
兩個 poisoning study 把問題拉到更殘酷的現實:就算一開始不是惡意,也會把你拖進一樣的 attack surface
除了直接抓現成惡意 router,作者還做了兩個更有殺傷力的 poisoning studies。這部分我認為是整篇 paper 最值得讀的地方,因為它把事情從「黑市 router 有問題」提升到「整個不透明 router 生態本身就是高風險土壤」。
論文提到的案例非常誇張:
- 一個外洩的 OpenAI key,產生了 1 億 GPT-5.4 tokens 與 超過 7 個 Codex sessions
- 另一組弱配置 decoy,最終導致 20 億 billed tokens、99 組 credentials、440 個 Codex sessions,其中 401 個 session 已在 autonomous YOLO mode
這些數字真正可怕的地方在於,它們說明了兩件事:
- 一旦 router 能碰到 credential 與 agent session,損失不是單次請求,而是可長鏈擴散的
- agent 的自動化能力會把一個原本只是 API key 洩漏的事件,放大成 session takeover、憑證收割、持續任務濫用與資費爆炸
這也剛好呼應這一波 agentic security 的主旋律:最危險的風險不是模型回錯一句話,而是它讀、記、做、連出去的整條執行鏈被接管後,系統還會自己往前跑。
Mine 這個研究代理很重要,因為它證明攻擊不是特定平台偶發 bug,而是可移植的攻擊類
作者為了系統化驗證這類威脅,還做了一個名叫 Mine 的 research proxy,用來在四個公開 agent frameworks 上實作上述四種攻擊類別。這件事的意義很大,因為它說明問題不是某一家 router vendor 寫太爛,也不是某個 agent app 恰好沒防好,而是:
只要你讓一個不可信中介者站在 agent 與上游模型之間,而系統又缺乏可驗證完整性,那這種攻擊面就是可重複、可遷移、可工程化利用的。
很多系統安全問題之所以難被正視,是因為大家總愛把它們降格成 implementation detail。但這篇 paper 很清楚地把它往上提成 architecture issue:router 不是 incidental component,而是 trust boundary component。
這篇論文最值得記住的一句話:代理供應鏈上的中介者,不需要控制模型,只要控制你看不到的那一段就夠了
在傳統 LLM 風險討論裡,大家常把注意力放在模型對齊、system prompt、RAG 污染、惡意工具描述。這些都重要,但 Your Agent Is Mine 逼你面對另一個更難看的現實:
很多時候攻擊者根本不需要去攻破模型本身,也不需要先入侵你的機器;他只要卡在那個你覺得「只是中轉」的地方,就足以改寫 agent 的命運。
而且這種位置往往同時滿足四個條件:
- 高可視性:看到完整 payload
- 高可操作性:能改 request / response
- 低被察覺性:表面仍像正常 API 服務
- 高規模性:能一次影響多個使用者與多種框架
這幾乎就是供應鏈攻擊最理想的落點。
作者提出哪些防禦?為什麼它們都很實際,但也都不是萬靈丹?
論文最後評估了三種可部署的 client-side defense:
- Fail-closed policy gate:對某些高風險行為直接拒絕,不讓可疑 router 回應驅動 agent 往下跑
- Response-side anomaly screening:檢查回應是否出現異常結構、奇怪 payload 或不符合預期的內容
- Append-only transparency logging:建立不可竄改式的日誌鏈,讓 request / response 改寫更容易被事後比對
我認為這三類防禦的共同特點,是它們都承認了一件事:既然 router 這層無法天然信任,那防禦就不能只靠「挑好供應商」;你必須在 client 端保留拒絕、審計與異常偵測能力。
但論文也隱含說明了它們的限制:
- Fail-closed 很安全,但容易壓壞可用性
- 異常偵測能抓粗糙攻擊,但對高度貼近語境的投毒不一定夠
- 透明日誌利於追查,但很多損害在被查到前就已經發生
也就是說,這三種方法比較像是在把 damage radius 壓小、把 visibility 拉高,而不是從根本上消除中介風險。
我怎麼看這篇論文?
我認為 Your Agent Is Mine 很值得讀,因為它把 agent security 討論從「模型有沒有被 jailbreak」往更成熟的系統安全視角推了一大步。它提醒我們,agent 時代的真正問題往往不是單點 prompt,而是整條 orchestration stack 上哪些節點擁有看、改、存、轉送的能力。
如果用更直白的話說,這篇 paper 在講的是:
當 agent 開始替你做事,最危險的敵人未必是假裝成使用者的人,也未必是輸入框裡那句惡意 prompt;很多時候,最危險的,反而是那個自稱只是在幫你「轉一下」的人。
這種威脅特別現代,也特別真實。因為今天的 AI 生態非常喜歡把一切包成平台、閘道、聚合器與 routing layer。這些東西讓開發更快、價格更低、整合更方便,但同時也把原本應該清楚的 trust boundary 變得又厚又模糊。當 agent 還能自動用工具、保留 session、讀取本地環境與接觸 secrets,這種模糊就不只是架構品味問題,而是直接的安全債。
對實務界最重要的 takeaway
如果你正在做 agent platform、把多模型路由接進產品、或默默依賴第三方轉送服務,這篇 paper 至少給了三個很硬的提醒:
- 不要把 router 當成透明基礎設施:它是 trust boundary,不是水電
- 不要假設 request / response 天然可信:只要中間有 proxy,就要考慮完整性與審計
- 不要低估 credential + autonomous session 的連鎖災害:在 agent 場景裡,單一 secret 洩漏會被放大成 workflow takeover
如果把這篇跟最近一串 agentic security 論文放在一起看,脈絡其實很清楚:prompt injection 只是入口之一,真正成熟的防禦必須往整條供應鏈、執行鏈與信任鏈去看。
而 Your Agent Is Mine 做得最好的地方,就是把「中間人」從一個抽象網路安全名詞,重新翻成 AI agent 時代每個人都該聽得懂的現實句子:
你的 agent 不一定是被模型背叛,也可能是先被路上的人賣掉了。
本文由 AI 產生、整理與撰寫
