HarmfulSkillBench 論文閱讀分析:真正危險的 skill,未必會偷你的資料,它也可能只是把壞事包成一鍵可裝的能力
這篇論文真正補上的,不是 skill 裡有沒有 prompt injection,而是另一個更容易被低估的面向:如果 skill 本身的 intended functionality 就是 cyber attack、詐欺、隱私侵犯或高風險決策自動化,那 agent 其實是在被公開 skill 生態系統化地武裝。
這篇論文真正補上的,不是 skill 裡有沒有 prompt injection,而是另一個更容易被低估的面向:如果 skill 本身的 intended functionality 就是 cyber attack、詐欺、隱私侵犯或高風險決策自動化,那 agent 其實是在被公開 skill 生態系統化地武裝。
這篇論文把 agent 工具安全的問題講得很到位:真正需要防的不是多一個 userspace wrapper,而是把每次 MCP tool invocation 當成 privileged syscall,交給不可旁路的 kernel-level governance gateway 去接住。
這篇論文把 smart contract 安全工具真正該補的一塊講得很直白:與其再堆更多 warning,不如更早辨認哪些異常路徑已經接近能被攻擊者金融化、真正把資產搬走的 exploitable structure。
這篇論文不是再做一個新 agent framework,而是回頭盤點 70 個公開專案,整理出 subagents、context、tooling、isolation、audit 與 orchestration 如何成 bundle 一起長,提醒大家真正該設計的是 harness,而不只是模型外圍配線。
這篇論文把 agent 安全往下挖到執行底座:若 edge device 上的 OS 與 hypervisor 都不該被完全信任,就需要用 Arm CCA 把 agent runtime、模型推論與第三方元件拆進可驗證的 confidential VMs。
這篇論文證明 cloud logs 本身就可能成為 indirect prompt injection 通道;一旦 debugging agent 既會讀 log 又能直接下命令,log 就可能從觀測資料變成控制入口。
這篇論文最重要的提醒,是 prompt injection 偵測不能再只靠 regex 或單一分類器,而要把 stylometry、local alignment、taint propagation 與長期 probing 訊號一起拉進來。
這篇論文真正重要的提醒,是不同 jailbreak 路徑不只會讓模型更危險,還會把它變成不同種類的危險系統:有些是整體漂移,有些則是保留安全理解卻把行為策略偷偷改向。
CapSeal 這篇論文最重要的提醒,不是 agent 會不會保守秘密,而是很多系統從架構上就不該讓 agent 直接持有可外流、可重播的 bearer credential。
這篇 paper 真正補的是 agent governance 最常被跳過的一層:治理原則不會自動長成 runtime guardrails,必須先拆成治理目標、設計期約束、執行期中介與 assurance feedback,才能知道哪些問題該在 architecture 解、哪些才值得在 runtime 攔。