AI Agent Harness 架構論文閱讀分析:很多團隊真正缺的,不是再多一個 feature,而是先搞清楚自己的 runtime 正在長成哪一種系統
論文基本資訊
- 論文標題:Architectural Design Decisions in AI Agent Harnesses
- 作者:Wei Hu
- 年份:2026
- 來源:arXiv:2604.18071
- 論文連結:https://arxiv.org/abs/2604.18071
- 主題:AI Agents、Agent Harnesses、Software Architecture、MCP、Context Management、Runtime Governance
這篇 Architectural Design Decisions in AI Agent Harnesses 最值得看的地方,不是它又發明了哪個新 agent framework,而是它終於退一步,認真問了一個更根本、也更常被大家跳過的問題:當大家都在做 agent,真正決定系統會長成什麼樣、風險會積到哪裡、可維運性會不會崩的,其實往往不是模型本身,而是外面那層 harness 怎麼搭。
這個 framing 很重要。因為現在很多討論還停在「模型會不會推理」「agent 會不會用工具」「benchmark 幾分」,但真正進到工程現場後,最麻煩的通常變成:
- 子代理到底怎麼分工、怎麼互相傳狀態?
- 上下文是靠 prompt window 撐、靠檔案撐,還是靠資料庫與分層記憶撐?
- 工具是硬編、registry、MCP,還是 plugin ecosystem?
- 有沒有 approval、sandbox、audit?這些東西是一起設計,還是補丁式黏上去?
- 整個執行迴圈是 CLI 風、workflow 風,還是 event-driven / orchestrator 風?
這篇論文真正補上的,不是 agent 能不能做事,而是 agent 系統到底是怎麼被「工程化」出來的。
它在解什麼問題?
作者觀察到一個很明顯的落差:研究界已經談了很多 agent 的 reasoning、planning、tool use、memory,但對於承載這些能力的非 LLM 工程層,也就是 tool mediation、context handling、delegation、safety control、orchestration,那層實際把 agent 變成可跑系統的基礎設施,反而缺少比較系統性的研究。
所以這篇不是單點 proposal,而是做了一個 70 個公開 agent-system 專案的 source-grounded empirical study。它想回答三個問題:
- RQ1: Agent harness 的關鍵設計維度到底有哪些?
- RQ2: 哪些設計決策常常一起出現?哪些常見想像其實不成立?
- RQ3: 不同類型的產品定位,最後會長成哪些典型架構模式?
我很喜歡這個角度,因為它不急著再造一個新框架,而是先把這個生態系到底已經反覆做了哪些選擇整理出來。這比單篇系統 paper 更像在幫整個領域補「架構地圖」。
這篇最關鍵的洞見:agent harness 不是 implementation detail,而是風險與能力一起長出的控制層
論文把 agent harness 定義成一個鬆散但實用的工作概念:它不是模型本身,也不是單純 prompt,而是那層負責工具中介、狀態與上下文處理、委派結構、執行邊界、治理控制的 surrounding infrastructure。
這點其實直接打中現在很多系統的盲點。因為很多團隊在做 agent 時,容易把 harness 當成「外圍 glue code」;但這篇的實證結果反而在說:
- 真正決定一個 agent 能不能長時間運作的,是 context management
- 真正決定它能不能安全碰世界的,是 tool system + isolation + approval
- 真正決定它能不能擴張成平台的,是 registration boundary 與 orchestration
換句話說,harness 不是幫模型接工具而已,而是在替整個 agent system 決定它的操作哲學。
五個最常反覆出現的設計維度
作者最後把 70 個專案濃縮成五個 recurring design dimensions,我覺得這個整理非常有用:
- Subagent architecture:有沒有 subagent、怎麼建立、可不可以巢狀、怎麼溝通
- Context management:上下文如何保存、壓縮、摘要、持久化
- Tool systems:工具如何註冊、探索、執行、隔離
- Safety mechanisms:approval workflow、isolation level、audit visibility
- Orchestration:整個 agent loop 是 imperative、ReAct、declarative 還是 event-driven
你如果最近看很多 agent 專案,應該會有種「對,就是這五塊在反覆折磨人」的感覺。這篇的價值在於,它不是只把這些列出來,而是證明這些東西在跨專案比較時真的足夠穩定,能拿來當分析主軸。
第一個很實用的發現:大家其實早就不再相信「只靠 prompt window 就夠」
論文在 context management 這塊抓到一個很關鍵的現實:純 prompt-window 導向的系統很少,真正的中心地帶反而是 file-persistent、hybrid、hierarchical 的 context strategy。
這句話背後其實很有分量。它代表業界和開源圈已經用腳投票了:一旦系統不只是單回合助手,而是要做多步、長任務、角色分工、可恢復執行,context handling 就不再是 prompt engineering 小技巧,而會被提升成一個 infrastructure concern。
這也解釋了為什麼最近很多 framework 會開始出現:
- 檔案型持久記憶
- summary + raw history 雙層保留
- layered / hierarchical memory
- 顯式的 token budgeting 與 prompt assembly
這篇其實在提醒一件事:當 coordination complexity 上升,memory 不是附加功能,而是系統服務。
第二個發現也很準:大家先把工具「內部制度化」,才慢慢走向 MCP / plugin 生態
在 tool system 上,這篇的結論不是「MCP 已經統治世界」,而是更接近現實的版本:registry-oriented tool systems 還是主流,但 MCP-first 與 plugin-oriented extensions 正在冒出來。
這個觀察我覺得很對。因為很多系統在擴張初期,通常會先做:
- 顯式 tool registry
- schema-based discovery
- 分類後的 capability surfacing
等到它真的開始想當平台、想吸第三方工具、想做更廣的互通,才會把邊界 formalize 成 MCP 或 plugin model。
論文的語氣很克制,但意思其實很清楚:tool registration 不只是開發便利性問題,它是平台野心的前兆。 一旦一個專案開始 formalize discovery boundary,它通常也正在往更大的 ecosystem ambition 走。
第三個發現最值得安全圈記:中等隔離很多,高保真稽核很少
這篇在安全設計上的發現,我覺得是整篇最值得 agent builder 貼在牆上的一句:
Intermediate isolation is common, but high-assurance audit is rare.
作者把這件事講得很白:很多專案確實開始加 sandbox、container、approval、command filtering,但真正做到高 assurance audit 的很少。論文裡甚至列出一個很刺眼的分布:
- No isolation:17%
- Container isolation:31%
- No audit:40%
- Structured audit:20%
- Tamper-evident audit:5%
這些數字真正刺的地方在於:很多系統已經願意加「限制它」的東西,卻還沒認真加「事後查得清楚」的東西。 也就是說,大家開始知道 agent 要被關,但還沒有真的把 agent 當成需要可追責、可稽核、可還原的操作主體。
這對資安與高風險工作流很重要。因為沒有 audit,你就很難分清楚:
- 哪個 tool call 是誰授權的
- 哪次狀態漂移是正常重規劃,哪次是被毒內容帶偏
- 哪個中介層在重寫、過濾、壓縮、或誤傳上下文
所以這篇雖然不是純安全 paper,卻意外地把agent runtime security 的真實成熟度照得很清楚。
真正有料的是 co-occurrence 分析:架構決策不是亂長,而是成 bundle 長
這篇最有價值的部分之一,是它不只列 feature,而是去看哪些設計決策會一起出現。這讓它從 catalog 升級成比較像 architecture study。
它抓到三個很有解釋力的 bundle:
1. 更深的 subagent coordination,通常會逼出更明確的 context service
這個其實非常合理。多代理一出現,狀態交接、部分結果保存、執行軌跡共享、摘要轉交就都會變成顯性問題。論文甚至指出,file persistence 在 orchestrator-worker 與 recursive 類型的專案裡比例遠高於單 loop 類型。
翻成人話就是:當你開始把工作切給多個角色做,記憶就不再只是聊天紀錄,而是協作基礎設施。
2. 更強的 execution isolation,通常會和更結構化的 governance 一起出現
這條也非常關鍵。作者觀察到 container-isolated projects 幾乎都更常搭配 policy engine、approval logic 與 audit trail。也就是說,sandboxing 不是獨立 feature,它通常是整個 control stack 的一部分。
這對現實世界很重要。因為如果一個系統給了更多執行能力,它就自然會承受更高 governance burden。這不是道德問題,是工程結構問題。
3. MCP / plugin 類型的註冊邊界,常出現在更平台化的產品定位
這點前面提過,但放到 co-occurrence 裡就更有味道:extension model 和 ecosystem ambition 是一起長的。 想做 developer-facing CLI、平台、可擴充 orchestration substrate 的專案,通常更有動機 formalize tool discovery 與 registration boundary。
更有意思的是三個「不成立的想像」
除了正向 co-occurrence,這篇也做了幾個我很喜歡的 non-co-occurrence,因為它們專門拿來拆掉那些很常被講得太簡單的說法。
1. 語言不決定架構
不是 Python 就一定鬆散,不是 Rust 就一定嚴謹,不是 TypeScript 就一定走 CLI。語言會影響實作風格,但不會直接把你鎖進某種 harness architecture。
2. Use case 不完全決定複雜度
同樣叫 coding assistant,有的很輕,有的已經是完整治理平台;同樣叫 research automation,有的只是窄任務原型,有的則做出很深的 orchestration。也就是說,產品標籤不等於架構深度。
3. 能力變強,不代表安全成熟度會自動跟上
這一條根本該印成 agent 圈警語。論文非常直接:有些框架工具面很廣、執行力很強,但 oversight 很普通;也有些系統能力不算最大,卻比較早投資在治理與安全。換句話說,capability growth does not automatically produce safety maturity.
這其實就是很多今天 agent 產品的寫照:功能長得飛快,但審計、授權、隔離、回溯能力還停在「之後再補」。
作者最後整理出的五種典型模式,很像一張 agent 框架地形圖
這篇最後把整個 corpus 總結成五種 recurring patterns,我覺得這是它最實用的輸出:
- Lightweight tools:小而快、低負擔、窄任務
- Balanced CLI frameworks:有一定 persistence、extensibility、operational practicality
- Multi-agent orchestrators:靠 coordination 拉高解題能力,但 context 與治理成本也跟著升
- Enterprise systems:context、extensibility、isolation、audit 一起成套出現
- Scenario-verticalized projects:為特定研究或垂直場景強化某一維,其他維度故意保持簡化
這種分法很有幫助,因為它提醒人一件事:不是所有 agent framework 都該長成同一個樣子。 真正重要的不是「誰比較先進」,而是你的 operating model 到底需要哪一包設計 bundle。
我怎麼看這篇?
如果你最近一直在看 agent security、MCP、runtime governance、CLI harness 或 orchestration framework,這篇會讓你有種「終於有人把這些看似零碎的工程選擇整理成一個可比較的架構語言」的感覺。
它最有價值的地方有三個:
- 第一,它把 harness 正名成研究對象。 不是雜項,不是 glue code,而是能力、風險與治理真正交會的地方。
- 第二,它用實證方式說明架構決策會成 bundle 長。 這比單篇系統 paper 更接近真實工程。
- 第三,它給了 framework builder 一個很實用的提醒:先定義 complexity envelope,再選 coherent bundle,不要 feature 一個一個亂長。
如果要挑一個我覺得最該被記住的句子,我會選這句:
很多 agent 團隊真正缺的,不是再多一個 feature,而是先搞清楚自己的 harness 正在往哪一種架構型態長。
因為 agent 系統一旦碰到長任務、工具擴張、多人協作、權限治理、稽核要求,你最後要補的幾乎都不是模型,而是 harness。
一句話總結
這篇論文真正說服我的地方,在於它把 agent engineering 從「功能拼裝」拉回「架構選型」:當 coordination、context、tooling、sandbox 與 audit 會一起長成 bundle 時,你就不能再把 harness 當成模型外面的零碎配線了。
