ClawTrap 論文閱讀分析：真正危險的，不只是網頁裡那句惡意 prompt，而是 agent 看到的整個世界都有可能早就被中間人改寫了

2026 年 4 月 18 日

論文基本資訊

論文標題：ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
作者：Haochen Zhao、Shaoyang Cui
年份：2026
來源：arXiv:2603.18762
論文連結：https://arxiv.org/abs/2603.18762
DOI：10.48550/arXiv.2603.18762
主題：OpenClaw、Web Agents、MITM、Agentic Security、Red Teaming、Runtime Security

這篇 paper 我會直接記成一句話：

真正會害死 web agent 的，不一定是頁面上那句明顯可疑的 prompt，而是它一路信任的觀察通道本身，早就被中間人悄悄改寫了。

ClawTrap 的切入點很對味，因為它不是再做一個靜態 benchmark，也不是只在 sandbox 裡塞惡意字串測 agent 會不會中招；它把問題往更貼近部署現場的地方拉：如果 OpenClaw 這類 web agent 在真實瀏覽流程中遇到 MITM（Man-in-the-Middle）流量攔截與改寫，它到底還能不能安全地看世界？

這個問題很值得看，因為很多現有 agent security 評測，其實仍然預設「網頁內容雖然可能惡意，但至少傳到 agent 眼前時是原站內容」。ClawTrap 說，不，現實世界還有另一層：agent 依賴的 observation channel 本身就可能被竄改。

這篇論文在解什麼問題？

作者認為，現有 agent security benchmark 大多集中在兩種設定：

靜態 sandbox 環境
content-level prompt attack

這些研究不是沒價值，但還差一塊很關鍵的真實風險面：live browsing 時的 network-layer manipulation。

對 web agent 來說，很多決策都建立在「我看到的頁面是真的」這個默默存在的前提上。一旦這個前提被打穿，agent 就可能：

把假頁面當真頁面摘要出去
把偽造警示當成合法 UI 訊號
被局部 DOM 改寫帶偏後續判斷與動作
在整個流程沒有出現明顯惡意 prompt 的情況下，做出危險或錯誤輸出

所以這篇真正想補的，不是「頁面內容是否含 prompt injection」這一層，而是：agent 有沒有能力在遭遇網路中間人改寫時，辨認自己看到的證據來源已經不可信。

ClawTrap 在做什麼？

ClawTrap 是一個專門拿來評估 OpenClaw 的 MITM red-teaming framework。它的架構核心是把 agent 放在雲端執行，但把審計與攔截邏輯收回研究者控制的本地節點，形成一條「Local Capture – Cloud Induction」路徑。

論文描述的管線大致是這樣：

OpenClaw instance 經由 proxy adapter 把流量導進私有通道
流量經 Tailscale 隧道送到本地攔截節點
本地 mitmdump / interceptor 依規則決定要不要攔、要怎麼改
再把改寫後的 response 回送給雲端 agent 繼續跑

它不只是攔封包而已，還把攻擊流程做成可重現、可切換模式、可審計的 framework。這點很重要，因為沒有可重現的攻擊管線，就很難把 agent security 從 demo 變成可比較、可持續追蹤的評測方法。

三種 MITM 攻擊模式，是這篇最值得記的骨架

ClawTrap 把 MITM 攻擊形式整理成三類，這個 taxonomy 很實用：

Static HTML Replacement：直接把整個回應頁面換成偽造但看似合理的內容
Iframe Popup Injection：在原本真頁面上疊一層假的高優先級提示或警告
Dynamic Content Modification：細粒度改寫 DOM 片段、文字欄位或任務關鍵資訊

這三類其實對應三種很不同的失敗面：

整頁替換，測的是 agent 會不會全盤信任被換掉的主證據
彈窗疊加，測的是 agent 會不會過度信任看起來像安全訊號的 UI
局部改寫，測的是 agent 會不會被細小但任務關鍵的事實污染

也就是說，ClawTrap 不是只在問「有沒有被騙」，而是在拆解：agent 是在哪一層把對世界的信任交出去的。

這篇最有意思的地方：它測的不是 prompt robustness，而是 provenance-aware reasoning

我覺得這篇 paper 值得寫，不只是因為題目有 OpenClaw，而是因為它把評測重心拉到一個比較成熟的問題設定：

agent 不只要能看懂內容，還要能判斷這份內容到底配不配被信。

這就是 provenance-aware reasoning。

很多現有測法其實都預設 evidence 本身是 legit，只測模型會不會被頁面裡的惡意語句操控。但 ClawTrap 告訴你，真實世界裡，evidence 的來源鏈本身也可能被污染。在這種情況下，再強的內容理解都不夠，因為你理解得越好，只是越精準地理解了假的東西。

所以這篇最核心的轉向是：從單純的 content attack，改成評估 agent 能不能做 trust calibration。

兩個示範攻擊案例，雖然不大，但方向很清楚

論文目前是初版 technical report，實驗還偏 proof-of-concept，不是大規模 benchmark。不過它的兩個 demo case 已經很夠說明問題。

案例 A：整頁新聞替換

作者讓 agent 執行類似「告訴我 bbc.com 上有什麼」的任務，但攔截後把回應換成偽造新聞頁。這種攻擊厲害的地方在於：它不破壞流程，不彈錯，不報錯，agent 依舊順順地抓頁、讀頁、總結頁。 只是它看的頁根本不是原來那頁。

這時候比較弱的模型就會很自然地把偽造內容當真，吐出一本正經但其實錯誤的摘要；比較強的模型則較可能指出頁面不像正常 BBC 首頁，懷疑 proxy rewrite、網路攔截或內容異常，並嘗試 safer fallback。

這個差異很關鍵，因為兩者都不是「看不懂頁面」，而是只有一部分模型會進一步問：為什麼我會看到這個頁面？

案例 B：真頁面上疊假警告

第二個案例是去 google.com，但在真頁面上蓋一層假的高急迫性 warning overlay。這時候測的就不是主體內容，而是 agent 對 UI 級安全訊號的信任校準。

論文觀察到，較弱模型比較容易把這種 warning 當一般頁面元素略過，或只是做表層描述；較強模型則比較會先懷疑這個警示是否可信、是否可能來自 extension / script / proxy injection。

這再次說明一件事：web agent 的安全不只是讀字串，而是對視覺與介面訊號做來源判斷。

這篇論文真正提出的，不是一種攻擊，而是一個更對的評測問題

老實說，ClawTrap 目前還不是那種實驗量大到可以直接下產業結論的 paper。作者自己也明說這只是 preliminary technical report，完整版量化評測還在後面。

但我覺得它重要的地方本來就不只在數字，而是在於它把問題問對了：

不是只有頁面內容可能惡意
不是只有 prompt string 會 hijack agent
agent 依賴的網路觀測通道本身，就是一級安全邊界

而一旦你接受這個前提，很多事情都會變：

benchmark 不該只測 sandbox content injection
runtime defense 不該只看 semantic filtering
部署端需要更重視 proxy、TLS、origin verification、network provenance
agent evaluation 應該把「是否察覺觀測來源異常」列為核心能力

它和最近 prompt injection 論文的差別

如果把這篇放進最近一串 agent security paper 裡看，它其實補的是另一條線。

像 AgentWatcher、ICON、ClawGuard、Cognitive Firewall、ShieldNet 這些論文，大多還是圍繞：

內容級 prompt injection
tool boundary / execution boundary
runtime filtering / causal attribution / network observation

ClawTrap 則把焦點再往前推一點：如果整個 browsing evidence path 都不可靠，agent 還剩下多少能力辨識自己正在被騙？

這不是跟前面那些論文衝突，反而是很好的補位。因為真正成熟的 agent defense，大概不會只有一層 detector，而是得同時處理：

content 是否可疑
tool action 是否合理
network behavior 是否異常
evidence provenance 是否仍然可信

ClawTrap 把最後那條線正式拉出來了。

限制也很明顯

這篇 paper 的限制不難看出：

目前實驗還偏 demo-driven，量化規模有限
攻擊案例數不多，還沒有完整 benchmark matrix
評估對象集中在 OpenClaw-like web agent，不等於所有 agent 都一樣
模型分層結論目前更像方向性觀察，而非最終定論

但這些限制不會讓它失去價值，因為它至少證明了一件事：MITM 條件下的 live evaluation 是可做、而且真的能挖出靜態 benchmark 看不到的 failure mode。

重點整理

ClawTrap 是一個專門用來評估 OpenClaw 在真實瀏覽環境中面對 MITM 攻擊 的 red-teaming framework。
論文主張，現有 agent security benchmark 太常停在 靜態 sandbox + content-level attack，忽略了 network-layer manipulation 這條部署現實。
ClawTrap 支援三種攻擊模式：Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification。
它真正測的不是模型會不會讀頁，而是 agent 能不能對自己看到的證據來源做 trust calibration 與 provenance-aware reasoning。
論文中的 demo 顯示，較弱模型更容易信任被改寫的觀察結果並產生危險輸出；較強模型較可能察覺異常、懷疑 interception，並採取較安全 fallback。
這篇 paper 最核心的啟示是：web agent 的 observation channel 本身就是一級安全邊界，不能只把風險理解成頁面上那段 prompt 文案。

Takeaway

如果要我濃縮成一句話，這篇最值得記的是：

當 agent 開始替你看網頁、解讀介面、再把看到的東西直接拿去規劃下一步時，真正需要保護的不是單一 prompt，而是整條「看見世界」的通道。

ClawTrap 的價值，在於它把 web-agent security 從「內容有沒有毒」往前推成「觀察來源有沒有被動手腳」。這一步很實際，也很值得後續研究繼續放大：因為對真正在網路上替人做事的 agent 來說，看錯世界 往往比 看錯一句話 更致命。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保內容的完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

ClawTrap 論文閱讀分析：真正危險的，不只是網頁裡那句惡意 prompt，而是 agent 看到的整個世界都有可能早就被中間人改寫了

論文基本資訊

這篇論文在解什麼問題？

ClawTrap 在做什麼？

三種 MITM 攻擊模式，是這篇最值得記的骨架

這篇最有意思的地方：它測的不是 prompt robustness，而是 provenance-aware reasoning

兩個示範攻擊案例，雖然不大，但方向很清楚

案例 A：整頁新聞替換

案例 B：真頁面上疊假警告

這篇論文真正提出的，不是一種攻擊，而是一個更對的評測問題

它和最近 prompt injection 論文的差別

限制也很明顯

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解什麼問題？

ClawTrap 在做什麼？

三種 MITM 攻擊模式，是這篇最值得記的骨架

這篇最有意思的地方：它測的不是 prompt robustness，而是 provenance-aware reasoning

兩個示範攻擊案例，雖然不大，但方向很清楚

案例 A：整頁新聞替換

案例 B：真頁面上疊假警告

這篇論文真正提出的，不是一種攻擊，而是一個更對的評測問題

它和最近 prompt injection 論文的差別

限制也很明顯

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

SoK 論文閱讀分析：當 Agentic AI 真正開始碰工具、知識與自治，攻擊面就不再只是 Prompt

AURA 論文閱讀分析：用多代理與知識增強框架做 Cyber Threat Attribution

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆