Agentic Skills SoK 論文閱讀分析:真正該被治理的,不只是工具,而是整套會被反覆重用的做事方法
這篇 SoK 把 agent skills 從模糊概念整理成完整系統層:skills 不只是工具包裝,而是帶有適用條件、執行策略、終止條件與可調用介面的 procedural modules,也因此直接形成新的供應鏈與治理面。
這篇 SoK 把 agent skills 從模糊概念整理成完整系統層:skills 不只是工具包裝,而是帶有適用條件、執行策略、終止條件與可調用介面的 procedural modules,也因此直接形成新的供應鏈與治理面。
這篇論文不是再做一個黑箱 IDS 刷分,而是檢查 encoder-based LLM 在 SDN 入侵偵測裡,到底是不是根據 flow duration、packet rate、inter-arrival timing 這些像樣的流量行為在做判斷。
這篇論文不是再做一個新的 CTI extraction demo,而是直接檢查整個 CTI 產業本身的觀測偏差:二十年公開情資報告高度碎片化、vendor 間 overlap 很低,而且很多 coverage 差異其實是地理與產業視角偏差。
AttackSeqBench 把 CTI benchmark 從單點 fact 與 technique mapping,往 sequence-level reasoning 往前推了一步:真正關鍵的不只是模型知不知道 ATT&CK 名稱,而是能不能理解 tactic、technique、procedure 之間的先後與依賴關係。
Minerva 的重點不只是把 RL 用到 CTI,而是指出 CTI 本來就有 schema、identifier 與標準資源可供 deterministic verification;與其只靠 SFT 模仿答案,不如把這些結構直接變成 reward,逼模型學會交出真正可驗證的 structured CTI outputs。
這篇 paper 真正想處理的,不是模型夠不夠聰明,而是當 LLM / Agentic AI 大規模進入安全關鍵環境後,整條模型生命週期、供應鏈 provenance 與組織可承受的 scalability risk 要怎麼一起被治理。
這篇論文的重點不在於做一個會背法條的 chatbot,而在於把國家法規、ISO 27001、NIST CSF 與組織政策接成可用的 security profile 生成流程。真正卡住合規落地的,常常不是不知道有什麼框架,而是沒有人能把它們翻成你這個組織現在該做的控制。
這篇 paper 把資安風險評估拆成六個共享 persistent context 的 agent,核心不是把報告切段生成,而是讓 profiling、threat modeling、control assessment、risk scoring 與 recommendation 一路維持同一條組織脈絡。它最有意思的發現之一,是 multi-agent pipeline 的瓶頸往往不是模型不懂資安,而是 context capacity 根本撐不起整條 assessment workflow。
SafeAudit 的重點不是再做一個新的 agent safety benchmark,而是反過來審計現有 benchmark 本身的 coverage:當工具呼叫鏈、模糊授權與 verification 缺口交錯時,agent 就算已通過既有測試,仍可能在題庫外留下大量未被揭露的殘餘風險。
這篇真正值得看的,不是 LLM 又會做 incident response,而是它把 IR 明確視為 POMDP 與長程規劃問題:真正有用的 agent,不是每輪都很會說,而是能根據新觀測修正世界模型,再選出 recovery cost 更低的下一步。