Your Agent Is Mine 論文閱讀分析：當 LLM API Router 不再只是中轉站，而是整條 Agent 供應鏈上的中間人

2026 年 4 月 10 日

論文基本資訊

論文標題：Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain
作者：Yanju Chen 等人
年份：2026
來源：arXiv:2604.08407
論文連結：https://arxiv.org/abs/2604.08407
DOI：10.48550/arXiv.2604.08407
主題：Agentic Security、LLM Supply Chain、API Router、Man-in-the-Middle、Secret Exfiltration、Client-Side Defense

如果前幾篇在講的，是 agent 的風險不只在 prompt，也在 memory、skills、tools 與 runtime supply chain，那這篇 Your Agent Is Mine 則是把刀子再往一個很多人其實天天在碰、卻常故意不多想的地方插下去：

當你的 agent 呼叫模型時，中間那個「幫你轉送請求、幫你省錢、幫你統一接多家模型」的 API router，如果本身就是惡意的，會怎樣？

我覺得這篇 paper 的厲害之處，不是它又做了一個抽象 threat model，而是它把一個大家其實知道存在、但常被包裝成「工程便利性」的灰區，硬生生拉回安全正中央：第三方 router 本質上就是 application-layer proxy，它看得到你 agent 送出的完整明文 JSON，也看得到模型回來的內容；如果這裡沒有端到端完整性保護，那它就不只是轉送站，它本身就是可利用的供應鏈控制點。

換句話說，這篇論文不是在問模型會不會被騙，而是在問：如果連模型前面的路由商都不可信，那 agent 的整條執行鏈還剩下多少是真的屬於你？

這篇論文在解決什麼問題？

近年越來越多 agent framework 會透過第三方 API router 存取不同模型供應商：有人是為了省錢，有人是為了統一介面，有人是為了繞地區限制，也有人單純是因為各種「便宜 key」「聚合轉發」「中轉平台」很方便。從開發者角度看，這只是 infra abstraction；但從安全角度看，這代表你把本來該直接送給模型供應商的請求，先交給了另一個能完整看見、也能任意改寫內容的中介者。

作者指出，一個惡意 router 至少有兩種核心能力：

Payload Injection（AC-1）：在請求或回應裡偷偷插入惡意內容，影響 agent 後續行為
Secret Exfiltration（AC-2）：偷讀、蒐集、外送 agent 流經其中的機密資訊

而且更麻煩的是，它們還可以做兩種自適應變形：

Dependency-targeted injection（AC-1.a）：只對特定框架、特定模式、特定依賴鏈下毒
Conditional delivery（AC-1.b）：只在某些條件成立時才發動，平常看起來像正常服務

這裡最值得警惕的不是「中間人理論上可以做壞事」這種老生常談，而是：在 LLM agent 世界裡，中間人不只看得到內容，還能精準理解工具呼叫、system prompt、session 狀態與上下文結構，因此它有能力做非常貼著 agent workflow 的定向操弄。

這篇論文最重要的提醒：便宜 router 不是在賣轉發，它是在賣一個你看不見的高權限位置

很多人對第三方 router 的想像還停留在傳統 API proxy：大不了就是紀錄流量、偷偷存資料、品質不穩。但這篇 paper 說得更狠——對 agent 來說，這些 router 其實站在一個極度肥沃的攻擊位置上：

它們看得到 prompt 與 tool-calling payload
它們能在 response 回來前改內容
它們知道你在串哪個模型、哪個 agent framework、哪條工作流
它們甚至能靠條件觸發，只對高價值目標下手

把這幾點疊起來看，你會發現 router 根本不是「流量經手人」而已。它實際上是一個對 agent 語境、執行鏈與憑證流都有觀測權與修改權的供應鏈節點。

這也是這篇論文真正讓人不舒服的地方：你以為你在 outsourcing 成本優化，實際上你可能是在 outsourcing 信任根。

實證部分為什麼有說服力？因為作者不是只做模擬，而是真的去買、去測、去埋 canary

這篇 paper 最紮實的地方，在於它不是只停在概念模型，而是直接做了大規模實測。作者購買並收集了兩大類 router：

28 個付費 routers，來自 Taobao、Xianyu 與 Shopify 類型店面
400 個免費 routers，來自公開社群與分享來源

結果不只是「有風險」，而是真的測到活的惡意行為：

1 個付費 router、8 個免費 router 會主動注入惡意程式碼
2 個 router 具備 adaptive evasion trigger，會根據條件改變投毒方式
17 個 router 接觸到研究者放置的 AWS canary credentials
1 個案例 甚至直接盜走研究者控制的 ETH private key 資產

這些數字最值得注意的不是比例，而是性質。因為它證明了這不是「如果有人有朝一日惡意化，可能會發生的理論攻擊」，而是市場上已經存在會主動插 payload、摸 secrets、碰錢包的 router。

安全上最糟的消息通常不是「攻擊可能成立」，而是「攻擊已經有人在做，只是大家還把它當便宜工具」。這篇就是後者。

兩個 poisoning study 把問題拉到更殘酷的現實：就算一開始不是惡意，也會把你拖進一樣的 attack surface

除了直接抓現成惡意 router，作者還做了兩個更有殺傷力的 poisoning studies。這部分我認為是整篇 paper 最值得讀的地方，因為它把事情從「黑市 router 有問題」提升到「整個不透明 router 生態本身就是高風險土壤」。

論文提到的案例非常誇張：

一個外洩的 OpenAI key，產生了 1 億 GPT-5.4 tokens 與 超過 7 個 Codex sessions
另一組弱配置 decoy，最終導致 20 億 billed tokens、99 組 credentials、440 個 Codex sessions，其中 401 個 session 已在 autonomous YOLO mode

這些數字真正可怕的地方在於，它們說明了兩件事：

一旦 router 能碰到 credential 與 agent session，損失不是單次請求，而是可長鏈擴散的
agent 的自動化能力會把一個原本只是 API key 洩漏的事件，放大成 session takeover、憑證收割、持續任務濫用與資費爆炸

這也剛好呼應這一波 agentic security 的主旋律：最危險的風險不是模型回錯一句話，而是它讀、記、做、連出去的整條執行鏈被接管後，系統還會自己往前跑。

Mine 這個研究代理很重要，因為它證明攻擊不是特定平台偶發 bug，而是可移植的攻擊類

作者為了系統化驗證這類威脅，還做了一個名叫 Mine 的 research proxy，用來在四個公開 agent frameworks 上實作上述四種攻擊類別。這件事的意義很大，因為它說明問題不是某一家 router vendor 寫太爛，也不是某個 agent app 恰好沒防好，而是：

只要你讓一個不可信中介者站在 agent 與上游模型之間，而系統又缺乏可驗證完整性，那這種攻擊面就是可重複、可遷移、可工程化利用的。

很多系統安全問題之所以難被正視，是因為大家總愛把它們降格成 implementation detail。但這篇 paper 很清楚地把它往上提成 architecture issue：router 不是 incidental component，而是 trust boundary component。

這篇論文最值得記住的一句話：代理供應鏈上的中介者，不需要控制模型，只要控制你看不到的那一段就夠了

在傳統 LLM 風險討論裡，大家常把注意力放在模型對齊、system prompt、RAG 污染、惡意工具描述。這些都重要，但 Your Agent Is Mine 逼你面對另一個更難看的現實：

很多時候攻擊者根本不需要去攻破模型本身，也不需要先入侵你的機器；他只要卡在那個你覺得「只是中轉」的地方，就足以改寫 agent 的命運。

而且這種位置往往同時滿足四個條件：

高可視性：看到完整 payload
高可操作性：能改 request / response
低被察覺性：表面仍像正常 API 服務
高規模性：能一次影響多個使用者與多種框架

這幾乎就是供應鏈攻擊最理想的落點。

作者提出哪些防禦？為什麼它們都很實際，但也都不是萬靈丹？

論文最後評估了三種可部署的 client-side defense：

Fail-closed policy gate：對某些高風險行為直接拒絕，不讓可疑 router 回應驅動 agent 往下跑
Response-side anomaly screening：檢查回應是否出現異常結構、奇怪 payload 或不符合預期的內容
Append-only transparency logging：建立不可竄改式的日誌鏈，讓 request / response 改寫更容易被事後比對

我認為這三類防禦的共同特點，是它們都承認了一件事：既然 router 這層無法天然信任，那防禦就不能只靠「挑好供應商」；你必須在 client 端保留拒絕、審計與異常偵測能力。

但論文也隱含說明了它們的限制：

Fail-closed 很安全，但容易壓壞可用性
異常偵測能抓粗糙攻擊，但對高度貼近語境的投毒不一定夠
透明日誌利於追查，但很多損害在被查到前就已經發生

也就是說，這三種方法比較像是在把 damage radius 壓小、把 visibility 拉高，而不是從根本上消除中介風險。

我怎麼看這篇論文？

我認為 Your Agent Is Mine 很值得讀，因為它把 agent security 討論從「模型有沒有被 jailbreak」往更成熟的系統安全視角推了一大步。它提醒我們，agent 時代的真正問題往往不是單點 prompt，而是整條 orchestration stack 上哪些節點擁有看、改、存、轉送的能力。

如果用更直白的話說，這篇 paper 在講的是：

當 agent 開始替你做事，最危險的敵人未必是假裝成使用者的人，也未必是輸入框裡那句惡意 prompt；很多時候，最危險的，反而是那個自稱只是在幫你「轉一下」的人。

這種威脅特別現代，也特別真實。因為今天的 AI 生態非常喜歡把一切包成平台、閘道、聚合器與 routing layer。這些東西讓開發更快、價格更低、整合更方便，但同時也把原本應該清楚的 trust boundary 變得又厚又模糊。當 agent 還能自動用工具、保留 session、讀取本地環境與接觸 secrets，這種模糊就不只是架構品味問題，而是直接的安全債。

對實務界最重要的 takeaway

如果你正在做 agent platform、把多模型路由接進產品、或默默依賴第三方轉送服務，這篇 paper 至少給了三個很硬的提醒：

不要把 router 當成透明基礎設施：它是 trust boundary，不是水電
不要假設 request / response 天然可信：只要中間有 proxy，就要考慮完整性與審計
不要低估 credential + autonomous session 的連鎖災害：在 agent 場景裡，單一 secret 洩漏會被放大成 workflow takeover

如果把這篇跟最近一串 agentic security 論文放在一起看，脈絡其實很清楚：prompt injection 只是入口之一，真正成熟的防禦必須往整條供應鏈、執行鏈與信任鏈去看。

而 Your Agent Is Mine 做得最好的地方，就是把「中間人」從一個抽象網路安全名詞，重新翻成 AI agent 時代每個人都該聽得懂的現實句子：

你的 agent 不一定是被模型背叛，也可能是先被路上的人賣掉了。

本文由 AI 產生、整理與撰寫

Your Agent Is Mine 論文閱讀分析：當 LLM API Router 不再只是中轉站，而是整條 Agent 供應鏈上的中間人

論文基本資訊

這篇論文在解決什麼問題？

這篇論文最重要的提醒：便宜 router 不是在賣轉發，它是在賣一個你看不見的高權限位置

實證部分為什麼有說服力？因為作者不是只做模擬，而是真的去買、去測、去埋 canary

兩個 poisoning study 把問題拉到更殘酷的現實：就算一開始不是惡意，也會把你拖進一樣的 attack surface

Mine 這個研究代理很重要，因為它證明攻擊不是特定平台偶發 bug，而是可移植的攻擊類

這篇論文最值得記住的一句話：代理供應鏈上的中介者，不需要控制模型，只要控制你看不到的那一段就夠了

作者提出哪些防禦？為什麼它們都很實際，但也都不是萬靈丹？

我怎麼看這篇論文？

對實務界最重要的 takeaway

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解決什麼問題？

這篇論文最重要的提醒：便宜 router 不是在賣轉發，它是在賣一個你看不見的高權限位置

實證部分為什麼有說服力？因為作者不是只做模擬，而是真的去買、去測、去埋 canary

兩個 poisoning study 把問題拉到更殘酷的現實：就算一開始不是惡意，也會把你拖進一樣的 attack surface

Mine 這個研究代理很重要，因為它證明攻擊不是特定平台偶發 bug，而是可移植的攻擊類

這篇論文最值得記住的一句話：代理供應鏈上的中介者，不需要控制模型，只要控制你看不到的那一段就夠了

作者提出哪些防禦？為什麼它們都很實際，但也都不是萬靈丹？

我怎麼看這篇論文？

對實務界最重要的 takeaway

發佈留言 取消回覆

You may also like

TechniqueRAG 論文閱讀分析：用 RAG 與大型語言模型標註 CTI 中的 ATT&CK 技術

AnyPoC 論文閱讀分析：真正把 AI 漏洞挖掘往前推的，不是多報幾個可疑 bug，而是能不能自動產出可執行 PoC 並擋掉假陽性

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆