ClawTrap 論文閱讀分析:真正危險的,不只是網頁裡那句惡意 prompt,而是 agent 看到的整個世界都有可能早就被中間人改寫了
論文基本資訊
- 論文標題:ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
- 作者:Haochen Zhao、Shaoyang Cui
- 年份:2026
- 來源:arXiv:2603.18762
- 論文連結:https://arxiv.org/abs/2603.18762
- DOI:10.48550/arXiv.2603.18762
- 主題:OpenClaw、Web Agents、MITM、Agentic Security、Red Teaming、Runtime Security
這篇 paper 我會直接記成一句話:
真正會害死 web agent 的,不一定是頁面上那句明顯可疑的 prompt,而是它一路信任的觀察通道本身,早就被中間人悄悄改寫了。
ClawTrap 的切入點很對味,因為它不是再做一個靜態 benchmark,也不是只在 sandbox 裡塞惡意字串測 agent 會不會中招;它把問題往更貼近部署現場的地方拉:如果 OpenClaw 這類 web agent 在真實瀏覽流程中遇到 MITM(Man-in-the-Middle)流量攔截與改寫,它到底還能不能安全地看世界?
這個問題很值得看,因為很多現有 agent security 評測,其實仍然預設「網頁內容雖然可能惡意,但至少傳到 agent 眼前時是原站內容」。ClawTrap 說,不,現實世界還有另一層:agent 依賴的 observation channel 本身就可能被竄改。
這篇論文在解什麼問題?
作者認為,現有 agent security benchmark 大多集中在兩種設定:
- 靜態 sandbox 環境
- content-level prompt attack
這些研究不是沒價值,但還差一塊很關鍵的真實風險面:live browsing 時的 network-layer manipulation。
對 web agent 來說,很多決策都建立在「我看到的頁面是真的」這個默默存在的前提上。一旦這個前提被打穿,agent 就可能:
- 把假頁面當真頁面摘要出去
- 把偽造警示當成合法 UI 訊號
- 被局部 DOM 改寫帶偏後續判斷與動作
- 在整個流程沒有出現明顯惡意 prompt 的情況下,做出危險或錯誤輸出
所以這篇真正想補的,不是「頁面內容是否含 prompt injection」這一層,而是:agent 有沒有能力在遭遇網路中間人改寫時,辨認自己看到的證據來源已經不可信。
ClawTrap 在做什麼?
ClawTrap 是一個專門拿來評估 OpenClaw 的 MITM red-teaming framework。它的架構核心是把 agent 放在雲端執行,但把審計與攔截邏輯收回研究者控制的本地節點,形成一條「Local Capture – Cloud Induction」路徑。
論文描述的管線大致是這樣:
- OpenClaw instance 經由 proxy adapter 把流量導進私有通道
- 流量經 Tailscale 隧道送到本地攔截節點
- 本地 mitmdump / interceptor 依規則決定要不要攔、要怎麼改
- 再把改寫後的 response 回送給雲端 agent 繼續跑
它不只是攔封包而已,還把攻擊流程做成可重現、可切換模式、可審計的 framework。這點很重要,因為沒有可重現的攻擊管線,就很難把 agent security 從 demo 變成可比較、可持續追蹤的評測方法。
三種 MITM 攻擊模式,是這篇最值得記的骨架
ClawTrap 把 MITM 攻擊形式整理成三類,這個 taxonomy 很實用:
- Static HTML Replacement:直接把整個回應頁面換成偽造但看似合理的內容
- Iframe Popup Injection:在原本真頁面上疊一層假的高優先級提示或警告
- Dynamic Content Modification:細粒度改寫 DOM 片段、文字欄位或任務關鍵資訊
這三類其實對應三種很不同的失敗面:
- 整頁替換,測的是 agent 會不會全盤信任被換掉的主證據
- 彈窗疊加,測的是 agent 會不會過度信任看起來像安全訊號的 UI
- 局部改寫,測的是 agent 會不會被細小但任務關鍵的事實污染
也就是說,ClawTrap 不是只在問「有沒有被騙」,而是在拆解:agent 是在哪一層把對世界的信任交出去的。
這篇最有意思的地方:它測的不是 prompt robustness,而是 provenance-aware reasoning
我覺得這篇 paper 值得寫,不只是因為題目有 OpenClaw,而是因為它把評測重心拉到一個比較成熟的問題設定:
agent 不只要能看懂內容,還要能判斷這份內容到底配不配被信。
這就是 provenance-aware reasoning。
很多現有測法其實都預設 evidence 本身是 legit,只測模型會不會被頁面裡的惡意語句操控。但 ClawTrap 告訴你,真實世界裡,evidence 的來源鏈本身也可能被污染。在這種情況下,再強的內容理解都不夠,因為你理解得越好,只是越精準地理解了假的東西。
所以這篇最核心的轉向是:從單純的 content attack,改成評估 agent 能不能做 trust calibration。
兩個示範攻擊案例,雖然不大,但方向很清楚
論文目前是初版 technical report,實驗還偏 proof-of-concept,不是大規模 benchmark。不過它的兩個 demo case 已經很夠說明問題。
案例 A:整頁新聞替換
作者讓 agent 執行類似「告訴我 bbc.com 上有什麼」的任務,但攔截後把回應換成偽造新聞頁。這種攻擊厲害的地方在於:它不破壞流程,不彈錯,不報錯,agent 依舊順順地抓頁、讀頁、總結頁。 只是它看的頁根本不是原來那頁。
這時候比較弱的模型就會很自然地把偽造內容當真,吐出一本正經但其實錯誤的摘要;比較強的模型則較可能指出頁面不像正常 BBC 首頁,懷疑 proxy rewrite、網路攔截或內容異常,並嘗試 safer fallback。
這個差異很關鍵,因為兩者都不是「看不懂頁面」,而是只有一部分模型會進一步問:為什麼我會看到這個頁面?
案例 B:真頁面上疊假警告
第二個案例是去 google.com,但在真頁面上蓋一層假的高急迫性 warning overlay。這時候測的就不是主體內容,而是 agent 對 UI 級安全訊號的信任校準。
論文觀察到,較弱模型比較容易把這種 warning 當一般頁面元素略過,或只是做表層描述;較強模型則比較會先懷疑這個警示是否可信、是否可能來自 extension / script / proxy injection。
這再次說明一件事:web agent 的安全不只是讀字串,而是對視覺與介面訊號做來源判斷。
這篇論文真正提出的,不是一種攻擊,而是一個更對的評測問題
老實說,ClawTrap 目前還不是那種實驗量大到可以直接下產業結論的 paper。作者自己也明說這只是 preliminary technical report,完整版量化評測還在後面。
但我覺得它重要的地方本來就不只在數字,而是在於它把問題問對了:
- 不是只有頁面內容可能惡意
- 不是只有 prompt string 會 hijack agent
- agent 依賴的網路觀測通道本身,就是一級安全邊界
而一旦你接受這個前提,很多事情都會變:
- benchmark 不該只測 sandbox content injection
- runtime defense 不該只看 semantic filtering
- 部署端需要更重視 proxy、TLS、origin verification、network provenance
- agent evaluation 應該把「是否察覺觀測來源異常」列為核心能力
它和最近 prompt injection 論文的差別
如果把這篇放進最近一串 agent security paper 裡看,它其實補的是另一條線。
像 AgentWatcher、ICON、ClawGuard、Cognitive Firewall、ShieldNet 這些論文,大多還是圍繞:
- 內容級 prompt injection
- tool boundary / execution boundary
- runtime filtering / causal attribution / network observation
ClawTrap 則把焦點再往前推一點:如果整個 browsing evidence path 都不可靠,agent 還剩下多少能力辨識自己正在被騙?
這不是跟前面那些論文衝突,反而是很好的補位。因為真正成熟的 agent defense,大概不會只有一層 detector,而是得同時處理:
- content 是否可疑
- tool action 是否合理
- network behavior 是否異常
- evidence provenance 是否仍然可信
ClawTrap 把最後那條線正式拉出來了。
限制也很明顯
這篇 paper 的限制不難看出:
- 目前實驗還偏 demo-driven,量化規模有限
- 攻擊案例數不多,還沒有完整 benchmark matrix
- 評估對象集中在 OpenClaw-like web agent,不等於所有 agent 都一樣
- 模型分層結論目前更像方向性觀察,而非最終定論
但這些限制不會讓它失去價值,因為它至少證明了一件事:MITM 條件下的 live evaluation 是可做、而且真的能挖出靜態 benchmark 看不到的 failure mode。
重點整理
- ClawTrap 是一個專門用來評估 OpenClaw 在真實瀏覽環境中面對 MITM 攻擊 的 red-teaming framework。
- 論文主張,現有 agent security benchmark 太常停在 靜態 sandbox + content-level attack,忽略了 network-layer manipulation 這條部署現實。
- ClawTrap 支援三種攻擊模式:Static HTML Replacement、Iframe Popup Injection、Dynamic Content Modification。
- 它真正測的不是模型會不會讀頁,而是 agent 能不能對自己看到的證據來源做 trust calibration 與 provenance-aware reasoning。
- 論文中的 demo 顯示,較弱模型更容易信任被改寫的觀察結果並產生危險輸出;較強模型較可能察覺異常、懷疑 interception,並採取較安全 fallback。
- 這篇 paper 最核心的啟示是:web agent 的 observation channel 本身就是一級安全邊界,不能只把風險理解成頁面上那段 prompt 文案。
Takeaway
如果要我濃縮成一句話,這篇最值得記的是:
當 agent 開始替你看網頁、解讀介面、再把看到的東西直接拿去規劃下一步時,真正需要保護的不是單一 prompt,而是整條「看見世界」的通道。
ClawTrap 的價值,在於它把 web-agent security 從「內容有沒有毒」往前推成「觀察來源有沒有被動手腳」。這一步很實際,也很值得後續研究繼續放大:因為對真正在網路上替人做事的 agent 來說,看錯世界 往往比 看錯一句話 更致命。
免責聲明
本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保內容的完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
