AI Agent Harness 架構論文閱讀分析:很多團隊真正缺的,不是再多一個 feature,而是先搞清楚自己的 runtime 正在長成哪一種系統
這篇論文不是再做一個新 agent framework,而是回頭盤點 70 個公開專案,整理出 subagents、context、tooling、isolation、audit 與 orchestration 如何成 bundle 一起長,提醒大家真正該設計的是 harness,而不只是模型外圍配線。
這篇論文不是再做一個新 agent framework,而是回頭盤點 70 個公開專案,整理出 subagents、context、tooling、isolation、audit 與 orchestration 如何成 bundle 一起長,提醒大家真正該設計的是 harness,而不只是模型外圍配線。
這篇論文把 agent 安全往下挖到執行底座:若 edge device 上的 OS 與 hypervisor 都不該被完全信任,就需要用 Arm CCA 把 agent runtime、模型推論與第三方元件拆進可驗證的 confidential VMs。
這篇論文證明 cloud logs 本身就可能成為 indirect prompt injection 通道;一旦 debugging agent 既會讀 log 又能直接下命令,log 就可能從觀測資料變成控制入口。
這篇論文最重要的提醒,是 prompt injection 偵測不能再只靠 regex 或單一分類器,而要把 stylometry、local alignment、taint propagation 與長期 probing 訊號一起拉進來。
這篇論文真正重要的提醒,是不同 jailbreak 路徑不只會讓模型更危險,還會把它變成不同種類的危險系統:有些是整體漂移,有些則是保留安全理解卻把行為策略偷偷改向。
CapSeal 這篇論文最重要的提醒,不是 agent 會不會保守秘密,而是很多系統從架構上就不該讓 agent 直接持有可外流、可重播的 bearer credential。
這篇 paper 真正補的是 agent governance 最常被跳過的一層:治理原則不會自動長成 runtime guardrails,必須先拆成治理目標、設計期約束、執行期中介與 assurance feedback,才能知道哪些問題該在 architecture 解、哪些才值得在 runtime 攔。
CASCADE 這篇論文真正值得看的,不只是它做了三層 prompt injection 偵測,而是它把 MCP 防禦往可本地部署、可分層過濾、可保留人工 review 的工程化方向推進了一步。
Aether 這篇論文真正值得看的,不只是它用了多代理,而是它把 network change validation 這件最花時間、最容易出事的工作,綁進一個以 digital twin 為共同世界模型的 verification / simulation / testing 閉環。
PoC-Adapt 最關鍵的洞見是:自動漏洞重現真正卡住的,常常不是 exploit generation,而是 exploit verification。只看 crash、log 或 return code 這類表面訊號,很容易把 incidental behavior 當成成功;PoC-Adapt 用 Semantic Oracle 比對 pre/post execution 的結構化系統狀態,再配合 Adaptive Policy Learning 減少 trial-and-error,讓整條漏洞重現流程更像可靠的工程閉環。