論文閱讀分析｜Towards Secure Agent Skills：當 Agent Skill 不是外掛，而是整條高權限供應鏈入口

2026 年 4 月 10 日

論文基本資訊

論文標題：Towards Secure Agent Skills: Architecture, Threat Taxonomy, and Security Analysis
作者：Zhiyuan Li、Jingzheng Wu、Xiang Ling、Xing Cui、Tianyue Luo
年份：2026
來源：arXiv:2604.02837
論文連結：https://arxiv.org/abs/2604.02837
DOI：10.48550/arXiv.2604.02837
主題：Agent Skills、Agentic Security、Supply Chain Security、Prompt Injection、Trust Model、Marketplace Security

如果前一篇〈Credential Leakage in LLM Agent Skills〉是在問：第三方 skill 會不會把你的憑證偷偷漏出去？ 那這篇 Towards Secure Agent Skills 更像是在往前退一步，直接問一個更根本的問題：

整個 Agent Skills 這種能力封裝模型，本身是不是就帶著結構性的安全債？

我認為這篇 paper 很值得讀，因為它不是再做一個「我們提出某個防禦框架」的補丁型研究，而是比較少見地從 架構層、生命週期層、治理層 去拆解 Agent Skills。它想說的其實很直接：有些風險不是 skill author 比較小心就能解決，也不是 marketplace 多做幾條 lint rule 就能補起來，而是 Agent Skills 這種包裝方式天生就把 instruction、data、script、local privilege 混在一起了。

對 2026 年還在狂長的 agent ecosystem 來說，這篇論文的重要性不只在於它整理了 threat taxonomy，而在於它把大家平常隱約知道、但常被行銷語言蓋過去的那件事講白：Skill 不是只是方便的知識包，它同時也是本機可執行、可持續信任、可被供應鏈污染的權限載體。

這篇論文在解決什麼問題？

Agent Skills 的魅力很容易理解：不用重新訓練模型，不用自己寫完整 MCP server，只要用一個目錄、幾個檔案、一份 SKILL.md，就能把一段專門能力包成 agent 可呼叫的模組。從產品角度看，這幾乎是 dream workflow；從安全角度看，這也幾乎是 nightmare workflow。

作者的核心觀察是，現有對 Agent Skills 的討論大多聚焦在 usability 與 ecosystem growth，但對它的安全性研究幾乎是空白。因此他們提出三個主要工作：

定義 Agent Skill 的完整生命週期：Creation、Distribution、Deployment、Execution 四階段
建立 threat taxonomy：7 個威脅類別、17 種具體情境、3 層攻擊面
從真實事件回驗 taxonomy：用 5 起已確認安全事件驗證這套分類不是紙上談兵

論文最想回答的問題可以濃縮成一句：

當 Agent Skill 被當作一種開放、低門檻、可市場化分發的能力封裝標準時，它到底會把哪些新的攻擊面一起帶進來？

為什麼 Agent Skills 比 Plugin / MCP 更麻煩？

這篇論文裡一個很有價值的部分，是把 ChatGPT Plugins、MCP、Agent Skills 放在同一張比較表裡。作者的觀點並不是前兩者就完全安全，而是：Agent Skills 把幾個本來還勉強分開的安全邊界，一次全部拆掉了。

他們特別強調幾個差異：

Data / instruction boundary 消失：SKILL.md 裡的自然語言指令與執行邏輯沒有正式介面分隔
Execution locus 在本機：skill 綁著本機檔案系統與本地權限，不像遠端 plugin 那樣天然有隔離帶
Runtime isolation 幾乎沒有：是否 sandbox 常取決於宿主 agent，而不是 skill 標準本身
Single-approval persistent trust model：安裝一次，之後長期沿用信任，不一定每次高風險動作都重新確認
Marketplace security review 不強制：開放生態很快，但惡意 skill 也更容易流通

如果把這幾點疊起來看，問題就很明顯了：Agent Skills 不是只有 prompt injection 風險而已，而是把 prompt、code、distribution、identity、execution privilege 纏成一團。 這和一般大家熟悉的「模型會不會被一句惡意 prompt 騙到」不是同一個層級。

Agent Skill 的核心結構：SKILL.md 為什麼是風險中心？

論文指出，Agent Skill 是一個 filesystem-based package，唯一必須存在的檔案通常就是 SKILL.md。這個設計很優雅，也很危險。因為它的便利，正好建立在兩件事上：

讓 agent 直接讀自然語言說明來判斷這個 skill 何時該被用
讓 skill author 可以在同一個包裡放 instruction、script、reference files，甚至引導 agent 下載外部資源

作者特別點出一個結構性缺陷：frontmatter 裡宣稱的 description，和後面 instruction body 真正在做的事，中間沒有可驗證的契約。 也就是說，skill 可以在 metadata 上看起來無害，但在 instructions 裡偷偷引導 agent 進行更高風險的操作。這不是 implementation bug，而是設計上沒有 formal interface contract。

換句話說：

在 Agent Skills 裡，「這個 skill 自稱是做什麼」和「這個 skill 實際能讓 agent 做什麼」之間，沒有硬邊界。

這也是為什麼它比傳統 typed tool schema 更難治理。schema-based interface 至少還能限制輸入輸出與動作範圍；但自然語言 skill 本身就是一種高權限 instruction carrier。

Progressive disclosure 不是純優化，它同時也在擴大 attack surface

Agent Skills 常被稱讚的一點，是它的 progressive disclosure loading model。簡單說，就是 agent 不需要一開始把所有 skill 內容都塞進 context，只先載入 metadata；等覺得相關，再讀 SKILL.md；必要時再按需讀 supplementary files 或執行 script。

從 token efficiency 看，這很合理。但論文提醒，這個分層載入同時也把攻擊面分散到三個層次：

Level 1：metadata 先進 system prompt，影響 skill selection
Level 2：完整 instructions 被讀入 active context，影響 agent 行為
Level 3：supplementary files 與 script outputs 在需要時才進來，形成更深的注入與執行面

尤其是 Level 3 很關鍵。論文明講：script source code 往往根本不會進模型上下文，只有 script output 回來。 這代表 agent 很可能根本不知道 script 背後做了哪些檔案操作、網路請求或狀態修改。對安全人來說，這是非常糟的可視性模型：agent 只看得到結果，看不到副作用。

也因此，progressive disclosure 的真正代價不是只多幾個讀檔步驟，而是讓惡意內容可以在不同階段以不同形式被帶入：metadata poisoning、instruction abuse、supplementary file injection、script-side hidden behavior，全都成立。

四段生命週期：這篇論文最有用的分析框架

我認為這篇 paper 最值得拿來重複使用的，不一定是 7 類 taxonomy 本身，而是它先把 Agent Skill 的風險切成四個生命週期階段：

Creation：作者撰寫 SKILL.md、script、assets 的階段
Distribution：skill 被發布到 marketplace 或 repository 的階段
Deployment：使用者安裝 skill、給它信任的階段
Execution：agent 在實際任務中啟用並執行 skill 的階段

這個切法很強，因為它迫使我們承認：skill 風險不只是 runtime prompt injection，而是一條完整供應鏈。 惡意設計可以從 authorship 就開始；distribution 階段可以被 typosquatting、shadowing、post-publication modification 汙染；deployment 階段則把模糊授權正式轉成 persistent trust；到 execution 階段才真正爆開。

Threat taxonomy：七大類不是在湊表格，而是真的互相咬合

論文最後整理出 7 大類、17 個情境、3 層攻擊面。雖然細項很多，但如果抓主幹，大概可以分成三層理解：

第一層：讓惡意 skill 進得來

Supply chain compromise
Consent abuse

這一層的核心是：skill 怎麼進到你的 agent 環境，並拿到不成比例的信任。論文特別提到 name shadowing、typosquatting、安裝後內容變更仍繼承原始信任等問題。這其實很像 npm / PyPI 世界的老問題，只是現在載體變成 agent capability。

第二層：進來後能做什麼

Prompt injection
Code execution abuse
Data exfiltration

這一層就是大家最熟悉、也最常被討論的部分，但這篇論文的好處是把它放回 lifecycle 裡看。因為有些 execution 階段的惡意行為，其實在 creation 或 distribution 時就已經埋好了。不是使用者某次操作不小心，而是整個 trust chain 早就被污染。

第三層：怎麼留下來、怎麼擴散出去

Persistence
Multi-agent propagation

這一層非常值得警惕。因為 skill 一旦被當成可重用能力模組，它天然就有複製、fork、分享、二次包裝的特性。換句話說，惡意 skill 不只是一個單點 compromise，而可能是一個會沿著生態系流動的「可攜式信任污染包」。

論文最尖銳的觀點：真正嚴重的不是單一 bug，而是 consent gap

這篇論文裡我最在意的一個詞是 consent gap。作者把它定義為：使用者在批准時以為自己同意的是某個 skill 的宣稱用途，但實際上授予的權限範圍卻是持續的、未區分的、可能隨內容改變而漂移的。

這件事為什麼嚴重？因為它不是「你沒看清楚安裝畫面」那麼簡單。它是結構上把這三件事綁在一起：

批准對象是 skill identity，不一定是不可變內容版本
批准通常不是逐次動作、逐次重審
執行範圍可能遠超使用者當初理解的能力邊界

用比較白話的方式說：你以為你裝的是「幫我整理 CTI 報告」的 skill，但你真正裝進去的是一個之後可以在本機高權限環境裡持續影響 agent 決策與工具調用的長期信任對象。

這也是作者為什麼會說，最嚴重的威脅來自 framework 的 structural properties，而不是個別開發者一時疏忽。

這篇論文跟真實世界有連上嗎？有，而且這正是它可信的地方

很多 taxonomy paper 容易陷入一個問題：分類很漂亮，但跟真實事故的連結很弱。這篇論文相對有說服力的地方，在於作者不是純靠想像列 threat list，而是把 taxonomy 拿去對照 五起已確認安全事件。這個動作很重要，因為它證明這些風險不是研究者自己關起門來發明出來的 hypothetical attack。

而且從近期整個 agent ecosystem 的事故脈絡來看，這篇 paper 的判斷其實和現場越來越一致：問題從來不只在模型本身，而是在 model × tools × local runtime × extension packaging 交會之後，安全邊界開始全面模糊。

對 defense 的啟示：不是加幾條 lint rule 就夠

論文最後的態度其實算保守而誠實。它沒有假裝提出一套萬能修補法，而是明確說：有些問題不能靠 incremental mitigation 解掉。

這句話我非常認同。因為如果根本問題是：

instruction 與 data 沒邊界
skill identity 與 content immutability 沒綁緊
本機執行缺少強制隔離
marketplace review 不是 mandatory

那你就不能只靠「提醒使用者只裝可信來源」這種建議過日子。這不是防禦策略，這只是把風險外包給使用者。

從實務上看，這篇 paper 至少指向幾條必要方向：

版本綁定與內容簽章：讓批准對象是可驗證的內容，而不是只有名字
更細粒度的 approval model：把高風險動作拆成可重審的權限事件
強制 sandbox 與 capability isolation：不要讓 skill 預設綁著宿主機器裸奔
marketplace security review 與 provenance：讓 distribution 端至少有基本門檻
明確的 data / instruction boundary：把自然語言權限載體改成更可檢查的介面模型

對資安圈的真正意義：Skill 會是下一個超低門檻供應鏈入口

如果把這篇論文放回更大的趨勢裡看，我覺得它真正有價值的地方，是提醒大家：Agent Skills 正在重演套件管理器、瀏覽器擴充功能、CI/CD action marketplace 曾經走過的路，但它把自然語言 instruction 也一起變成供應鏈物件。

這比傳統 supply chain 更麻煩，因為：

惡意邏輯不一定藏在 code，也可能藏在自然語言流程裡
審查者不只要看 script，還要看 instruction 與 context loading 行為
agent 自己會根據語意決定何時載入、何時執行，選擇面更動態

也就是說，未來 skill marketplace 的安全工作，不會只是 SBOM、惡意套件掃描、hash verification 那一套照搬過來就好；還必須處理 semantic trust 問題——你信任的不只是位元組，還有自然語言描述與其被模型詮釋後產生的行為。

重點整理

Towards Secure Agent Skills 是一篇從架構與生態系角度分析 Agent Skills 風險的論文，不只是單點漏洞研究。
作者將 Agent Skill 生命週期拆成 Creation、Distribution、Deployment、Execution 四階段，強調風險是一條完整供應鏈。
論文建立了 7 類威脅、17 種情境、3 層攻擊面 的 threat taxonomy，並用 5 起真實安全事件回驗。
它最重要的觀點之一是：Agent Skills 的高風險來自 framework 結構本身，尤其是沒有 data/instruction boundary、單次批准長期信任、缺少強制 marketplace review 等特性。
SKILL.md 同時承載 description、instructions、script references 與外部資源導引，使它成為權限與注入風險的中心。
progressive disclosure 雖然節省 context，但也把風險分散到 metadata、instruction、supplementary files 與 script output 各層。
論文特別點出 consent gap：使用者理解的授權對象，與實際被授予的持續權限範圍之間存在結構性落差。
作者的結論並不樂觀：很多嚴重風險無法靠小修小補解決，而需要重新設計 trust model、isolation、marketplace governance 與 interface boundary。

Takeaway

如果要我用一句話總結這篇論文，我會這樣說：

Agent Skills 最大的問題，不是某個 skill 會不會做壞事，而是我們把「自然語言能力包」當成低摩擦可安裝元件時，順手也把高權限信任、供應鏈風險與執行權限一起打包進來了。

這也是為什麼這篇 paper 值得被放進近期 agentic security 的必讀清單。它沒有用很花俏的 benchmark 分數取勝，而是把一個正在快速擴張的生態系，從安全工程角度重新解剖一次。對任何正在設計 skill marketplace、agent extension framework、或企業內部 agent capability pipeline 的團隊來說，這篇論文不是「可以看看」，而是最好在出事前先看。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保內容的完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

論文閱讀分析｜Towards Secure Agent Skills：當 Agent Skill 不是外掛，而是整條高權限供應鏈入口

論文基本資訊

這篇論文在解決什麼問題？

為什麼 Agent Skills 比 Plugin / MCP 更麻煩？

Agent Skill 的核心結構：SKILL.md 為什麼是風險中心？

Progressive disclosure 不是純優化，它同時也在擴大 attack surface

四段生命週期：這篇論文最有用的分析框架

Threat taxonomy：七大類不是在湊表格，而是真的互相咬合

第一層：讓惡意 skill 進得來

第二層：進來後能做什麼

第三層：怎麼留下來、怎麼擴散出去

論文最尖銳的觀點：真正嚴重的不是單一 bug，而是 consent gap

這篇論文跟真實世界有連上嗎？有，而且這正是它可信的地方

對 defense 的啟示：不是加幾條 lint rule 就夠

對資安圈的真正意義：Skill 會是下一個超低門檻供應鏈入口

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文在解決什麼問題？

為什麼 Agent Skills 比 Plugin / MCP 更麻煩？

Agent Skill 的核心結構：SKILL.md 為什麼是風險中心？

Progressive disclosure 不是純優化，它同時也在擴大 attack surface

四段生命週期：這篇論文最有用的分析框架

Threat taxonomy：七大類不是在湊表格，而是真的互相咬合

第一層：讓惡意 skill 進得來

第二層：進來後能做什麼

第三層：怎麼留下來、怎麼擴散出去

論文最尖銳的觀點：真正嚴重的不是單一 bug，而是 consent gap

這篇論文跟真實世界有連上嗎？有，而且這正是它可信的地方

對 defense 的啟示：不是加幾條 lint rule 就夠

對資安圈的真正意義：Skill 會是下一個超低門檻供應鏈入口

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

Zombie Agents 論文閱讀分析：當 AI Agent 會自己把教訓寫進記憶裡，Prompt Injection 就可能從當場失控變成長期感染

Phoenix 論文閱讀分析：很多漏洞 AI 真正缺的，不是再多一點 code pattern，而是先把它到底該遵守什麼安全契約講清楚

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆