Prompt Injection as Role Confusion 論文閱讀分析：很多 Agent 之所以被騙，可能不是因為它沒看見邊界，而是它從一開始就把誰在說話認錯了

2026 年 4 月 18 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Prompt Injection as Role Confusion
來源：arXiv:2603.12277
年份：2026
論文連結：https://arxiv.org/abs/2603.12277
主題：Prompt Injection、Agentic Security、Mechanistic Interpretability、Role Representation、CoT Forgery

很多 prompt injection 論文都在問：「怎樣的 payload 比較容易騙過模型？」但 Prompt Injection as Role Confusion 這篇更往裡面挖了一層：模型之所以會被騙，可能不是因為某段惡意文字剛好寫得很聰明，而是因為它其實沒有穩定分清楚『誰在說話』。

這個 framing 很重要。因為如果問題只是某幾種常見 injection pattern 被記熟了、偶爾漏掉，那還可以靠更多 blacklist、更多對抗訓練、更多 wrapper 來補；但如果真正的根因是 role boundary 並沒有在模型內部表示裡被牢靠保留下來，那你現在看到的大量防禦成功，很可能都只是記住了熟面孔，還不是從根上解掉 prompt injection。

我認為這篇 paper 最有價值的地方，就是它把 prompt injection 從「外部攻擊技巧集合」重新描述成：模型對 role 的內部表徵失真，導致低權限文字可以偽裝成高權限語境。

這篇論文想回答什麼？

作者的核心問題其實可以濃縮成一句話：

當模型看到一段文字時，它到底是靠真正的 message role / tag 來判斷來源，還是其實更依賴語氣、格式、詞彙與看起來像誰在說話的表面訊號？

這差很多。理想上，agent runtime 應該依賴像 <system>、<user>、<tool>、<assistant> 這些角色邊界來做權限區分：

system 指令權限最高
user 請求需要被回應，但不該覆寫更高層規則
tool output 應該被參考，但不該被服從
assistant / reasoning 則帶有模型自己的延續性與內部信任

但作者認為，現實中的模型常常不是這樣運作。它們會被可被攻擊者模仿的風格訊號影響，把一段本來來自 user 或 tool 的文字，誤認成比較可信、比較高權限的來源。這種現象，就是論文提出的 role confusion。

核心主張：Prompt Injection 的根因不是單一 payload，而是 role confusion

這篇論文最值得記住的主張，是：

模型並不總是穩定追蹤真正的 tagged source
它常根據語氣、格式、詞彙與敘事方式推斷「誰在說話」
因此，只要攻擊者能讓低權限內容聽起來像高權限角色，就可能偷到那個角色的影響力

換句話說，prompt injection 在這個框架下，不再只是「模型被惡意字串覆寫」。它更像是：

untrusted content
  ↓
style / lexical / structural spoofing
  ↓
model misperceives role
  ↓
low-privilege text inherits high-privilege authority
  ↓
agent follows the wrong thing

這個說法的威力，在於它把很多看似分散的現象串成同一條線：

chat jailbreak
tool-return prompt injection
假的 assistant history
偽裝成推理過程的 injection

它們表面不同，但底層可能都在做同一件事：讓模型把來源判錯。

論文做了什麼新東西？1：Role Probes

作者不是只做行為觀察，而是試著從模型內部表示去量測這件事。他們提出 role probes，想回答的是：模型內部到底把這段文字感知成誰在說話？

概念上，作者把相同文本套上不同角色 tag 來訓練 probe，理論上 probe 應該學到的是 tag 對應的角色差異；但結果顯示，當遇到 prompt injection 時，probe 經常會把低權限通道裡的內容判成它所模仿的高權限角色，而不是它真實被包住的 role。

這很關鍵，因為它表示問題不只是 output 看起來被帶偏，而是在生成之前，模型對這段文字的角色理解就已經歪了。

作者更進一步指出：probe 測到的 role confusion 強度，和攻擊成功率高度相關，甚至能在模型吐出第一個 token 之前預測成功機率。

這個結果讓 prompt injection 從「事後看模型有沒有中招」往前推進到「事前看模型內部是否已經誤判 authority」。

論文做了什麼新東西？2：CoT Forgery

這篇論文最亮眼的攻擊設計，是 CoT Forgery。它不是單純塞一句「忽略前面所有指令」，而是把偽造的 reasoning 過程注入到低權限內容裡，讓模型把那段外來文字誤認成「自己的思考」。

作者用這個攻擊來測一個很殘酷的問題：如果我把一段看起來很像模型內部推理語氣的內容塞進 user message 或 tool output，模型會不會把它當成自己的 chain-of-thought 來信？

結果非常不好看：

在 StrongREJECT 上，CoT Forgery 對多個 frontier models 可達約 60% attack success rate
某些模型在 chat jailbreak 測試裡甚至超過 80% ASR
在 agent data exfiltration 任務中，標準 prompt injection 原本只有 0%–2% 左右成功率（個別模型較高），但換成 CoT Forgery 後上升到 56%–70%

這裡最刺眼的不是數字本身，而是對比：很多模型對傳統攻擊看起來近乎沒事，但當攻擊者不再假扮 user command，而是假扮模型自己的思路時，整個防線就明顯鬆掉。

最重要的一個實驗訊號：荒謬理由也能成功

我覺得這篇最值得拿去反覆想的，不是它做出一個新 attack，而是它做了一個很有力的 ablation：作者把 forged reasoning 裡的理由改得很荒謬，例如像「使用者穿綠色衣服，所以可以協助危險請求」這種完全不該成立的條件。

如果模型真的把這段文字當成外部內容來審視，這種理由應該一下就被打掉；但結果是，荒謬版與合理版 forged CoT 的成功率接近。這表示模型不是在審查那段內容的邏輯，而是在直接信任那段內容所偷到的角色權限。

作者把這點講得很直白：被劫持的不是內容判斷，而是 privilege assignment。

另一個關鍵實驗：Style 才是因果點

作者還做了一個很漂亮的 style ablation。他們把同樣的語意保留下來，但移除那些看起來像模型真實 reasoning 風格的 lexical / syntactic 標記，做出所謂的 destyled variant。

結果是：

保留 reasoning 風格時，攻擊成功率大約可到 61%
把風格拿掉後，成功率可掉到接近 10%

這幾乎是在直接說：真正被模型吃下去的，不只是語意內容，而是那層「這聽起來像誰」的風格訊號。

也因此，論文的論點不只是「模型有時候會搞錯角色」，而是更強的一句：style 是造成 role confusion 的因果因素之一。

這篇論文怎麼重新解釋一般 agent prompt injection？

作者沒有把 role confusion 只停留在 CoT Forgery 這個新攻擊上，而是拿它去看更標準的 agent injection 場景，例如把惡意命令藏在網頁或 tool output 裡，誘導 agent 去 exfiltrate secrets。

結果顯示，當 role probes 測到的 confusion 越高，攻擊成功率也幾乎單調上升：從最低分位的約 2%，一路升到最高分位的約 70%。

這代表 role confusion 不是某個特定 payload 的特例，而更像是一個可量測、可泛化、能跨攻擊類型解釋 success rate 的潛在變數。

對 agent security 來說，這個轉變很大。因為你不再只是在追一串 payload blacklist，而是開始問：

模型是否把 tool output 真正當成 tool output？
是否把外部語料誤認成 assistant continuation？
是否把偽裝得像 reasoning 的內容當成自己的思考？

我怎麼看這篇 paper？

我很喜歡這篇的地方，在於它終於把 prompt injection 從「提示工程攻防」拉回更像 authority confusion / source authentication failure 的系統安全問題。

它等於在說：

role tag 是設計者以為存在的安全邊界
但模型內部不一定真的照那條邊界表示世界
所以很多 wrapper defense 看似有效，可能只是因為資料分布剛好還沒逼出這個裂縫

這也解釋了為什麼很多現有防禦一遇到 adaptive attacker、human red team 或換一種 phrasing 就崩：它們可能不是在真正辨識 authority misuse，而是在記熟幾種常見壞味道。

這篇論文對實務有什麼啟發？

如果接受作者的 framing，那很多 agent defense 的優先順序都要重排。

1. 不要再把「模型知道 tool output 不可信」當成已知事實

很多系統設計預設只要把資料放在 tool channel、加個標頭、或在 prompt 裡寫「不要相信下面內容」，模型就能自然理解權限差異。這篇論文基本上是在提醒：你不能假設這條邊界真的進入了模型的穩定內部表示。

2. 防禦重點應該往 source-grounded control 移動

如果 role confusion 才是根因，那比較像樣的防線就不該只靠語句分類，而應該更多往：

將 untrusted content 與 action planning 隔離
用外部 policy engine 驗證 tool call 是否與 user intent 一致
降低模型直接繼承外部內容 authority 的機會
讓 role / provenance 在 runtime 裡由系統層顯性維護，而不是只留給模型自己感覺

3. 評測要從 payload coverage 轉向 representational failure

未來如果還只拿固定 injection datasets 去比 defense，很可能會繼續高估安全性。更值得測的，是：

模型是否會把不同來源混淆
role confusion 指標是否可被壓低
在 style-shift / unseen spoofing 下是否仍能守住權限邊界

限制與我保留的地方

這篇 paper 很強，但也不是沒有邊界。

第一，mechanistic probe 的可解釋性仍有限。 probe 能量到關聯，不代表已完全刻出完整因果機制；只是它已經比單看 output 更往前一步。
第二，攻擊主要集中在特定模型家族與特定測試設定。 雖然跨多個 frontier models 已很有說服力，但未必等於所有架構都同樣脆弱。
第三，role confusion 不是整個 prompt injection 世界的唯一原因。 真實系統還有 retrieval 命中率、approval fatigue、tool metadata 污染、權限設計過寬等其他層面的問題。

但即便如此，這篇 paper 仍然很重要，因為它把一個原本很鬆散的現象，壓成了一個更可研究的命題：prompt injection 是不是源自模型對 authority source 的內部混淆？

結論

Prompt Injection as Role Confusion 最值得帶走的一句話，不是「CoT Forgery 很猛」，而是：

很多 prompt injection 之所以能成功，未必是因為攻擊者寫進了什麼神奇內容，而是因為模型其實一直在用『聽起來像誰』取代『實際上是誰』。

這會把整個 agent security 問題重新定義。真正該保護的，不只是 prompt 本身，而是角色、來源、權限與推理之間那條不能被語氣偽裝偷渡的邊界。

如果這個判斷成立，那未來更可靠的 agent defense，恐怕不會來自再多一層 wording filter，而會來自把 authority separation 從模型的模糊感知，改成系統層可驗證的結構設計。

Prompt Injection as Role Confusion 論文閱讀分析：很多 Agent 之所以被騙，可能不是因為它沒看見邊界，而是它從一開始就把誰在說話認錯了

論文基本資訊

這篇論文想回答什麼？

核心主張：Prompt Injection 的根因不是單一 payload，而是 role confusion

論文做了什麼新東西？1：Role Probes

論文做了什麼新東西？2：CoT Forgery

最重要的一個實驗訊號：荒謬理由也能成功

另一個關鍵實驗：Style 才是因果點

這篇論文怎麼重新解釋一般 agent prompt injection？

我怎麼看這篇 paper？

這篇論文對實務有什麼啟發？

1. 不要再把「模型知道 tool output 不可信」當成已知事實

2. 防禦重點應該往 source-grounded control 移動

3. 評測要從 payload coverage 轉向 representational failure

限制與我保留的地方

結論

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想回答什麼？

核心主張：Prompt Injection 的根因不是單一 payload，而是 role confusion

論文做了什麼新東西？1：Role Probes

論文做了什麼新東西？2：CoT Forgery

最重要的一個實驗訊號：荒謬理由也能成功

另一個關鍵實驗：Style 才是因果點

這篇論文怎麼重新解釋一般 agent prompt injection？

我怎麼看這篇 paper？

這篇論文對實務有什麼啟發？

1. 不要再把「模型知道 tool output 不可信」當成已知事實

2. 防禦重點應該往 source-grounded control 移動

3. 評測要從 payload coverage 轉向 representational failure

限制與我保留的地方

結論

發佈留言 取消回覆

You may also like

FALCON 論文閱讀分析：讓 LLM 從 CTI 直接長出可部署的 IDS 規則，真的開始可行了嗎？

IRCopilot 論文閱讀分析：用大型語言模型自動化 Incident Response

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆