CyberTeam 論文閱讀分析:把藍隊 Threat Hunting 真正拆成一條可執行的 LLM workflow
論文基本資訊
- 論文標題:Benchmarking LLMs in an Embodied Environment for Blue Team Threat Hunting
- 系統名稱:CyberTeam
- 作者:Feiyang Yu、Xi Li、Guanhua Yan、Ping Yang、Zhaohan Xi
- 年份:2025
- arXiv:https://arxiv.org/abs/2505.11901
- DOI:10.48550/arXiv.2505.11901
- 主題:Blue Team、Threat Hunting、Benchmark、Embodied Functions、LLM Evaluation、SOC、CTI Workflow
如果前一批論文還在問「LLM 懂不懂 CTI」、「會不會做 SOC triage」、「能不能幫 analyst 寫報告」,那 CyberTeam 這篇論文往前推的一步是:我們能不能把藍隊 threat hunting 拆成一條有依賴關係、可逐步執行、可模組化評估的工作鏈,然後真正去量模型在這條鏈上的表現?
這篇論文的價值,不在於它又做了一個新的資安題庫,而在於它明確意識到:真實 threat hunting 從來不是單題問答,而是一串互相依賴的分析動作。 你要先抽 IOC、判斷 threat actor、理解行為,再往下做優先排序、response 與 mitigation。很多既有 benchmark 只測其中一小段,但 CyberTeam 試圖把這整條 pipeline 組起來,而且不是完全放任模型自由發揮,而是用一組作者稱為 embodied functions 的結構化工具,去引導模型按照藍隊邏輯一步步做事。
對 sectools.tw 這條主線來說,CyberTeam 很值得看,因為它正好卡在兩個世界中間:它不像純知識 benchmark 那麼靜態,也不像真正 live agent environment 那麼昂貴難控。它更像是一個把 threat hunting workflow 明確程序化的中介層,讓我們開始比較嚴肅地問:模型不是會不會答,而是能不能沿著藍隊任務鏈穩定往下做。
這篇論文想解決什麼問題?
作者的起點其實非常實際。現有 LLM for cybersecurity 的研究雖然越來越多,但大多落在兩種形式:
- 單點任務評估:例如做 malware classification、CVE 問答、CTI 摘要或 log interpretation。
- 開放式 agent 展示:看起來很厲害,但難以做系統化比較,也不容易知道模型究竟卡在哪一段。
問題在於,真實 blue team threat hunting 並不是孤立任務的集合,而是一個有明顯上下游依賴的流程。你如果前面 attribution 做錯,後面的 mitigation 建議再流暢也只是錯得更完整。因此這篇論文真正想回答的是:
能不能用更接近藍隊實務的流程結構,去評估 LLM 在 threat hunting 上的能力,而不是把整件事切碎成互不相干的小題目?
這個問題很重要,因為它直接牽涉到我們到底在量什麼。如果 benchmark 測的是脫離脈絡的片段能力,那最後得到的多半只是「這模型懂一些資安概念」;但 CyberTeam 想測的是另一件事:這模型是否能在一條有順序、有依賴、有格式要求的藍隊工作流裡持續產出可用結果。
CyberTeam 的核心設計:把 threat hunting 變成 dependency chain
CyberTeam 最值得注意的設計,是它把 threat hunting 明確拆成四大類工作:
- Threat Attribution
- Behavior Analysis
- Prioritization
- Response & Mitigation
這四類並不是平行擺著而已,而是被作者整理成一條任務依賴鏈。也就是說,某些下游任務需要依賴前面任務的輸出才能完成。例如:
- 要做 actor identification,通常得先完成 infrastructure extraction 或 campaign correlation 的某些線索整理。
- 要做 attack complexity、severity scoring 或 playbook recommendation,前面對行為與攻擊路徑的理解就不能太差。
- 要做 response & mitigation,前提通常是 attribution 和 behavior analysis 不能崩。
這種 dependency-chain 的設計,讓 CyberTeam 比一般 benchmark 更像 analyst workflow。它不是單純在問模型「你知道這個 IOC 代表什麼嗎」,而是逼模型先把前置拼圖拼起來,再往後推。這點非常關鍵,因為很多模型在單點題目上看起來不錯,但一旦任務之間開始互相依賴,表現就會明顯掉下來。
Embodied functions 是什麼?為什麼它重要?
CyberTeam 另一個核心概念是 embodied functions。作者沒有讓模型在整條流程裡完全自由生成,而是設計了 9 種函式型能力模組,例如:
- NER:命名實體辨識
- REX:正規表示式解析
- SUM:摘要
- SIM:相似度比對
- MAP:文字映射
- RAG:檢索增強生成
- SPA:片段定位
- CLS:分類
- MATH:數值計算
每個 threat-hunting task 都會對應到一組適合的 embodied functions。比如:
- Infrastructure Extraction 可能會用到 NER、REX、SUM。
- TTP Extraction 會結合 RAG 與 MAP。
- Severity Scoring 會用到 SUM 與 MATH。
- Playbook Recommendation 或 Patch Tool Suggestion 則偏向 RAG 與 SUM。
這裡的真正重點,不只是「有工具可用」,而是作者在嘗試把藍隊任務裡不同類型的 cognitive operation 拆出來。這件事的研究意義很大,因為它讓 benchmark 不只是看最後答對沒,而是開始能討論:模型在哪一類程序性能力上穩,在哪一類程序性能力上會失真。
換句話說,CyberTeam 想做的不是一個純開放式的 agent playground,而是一個有結構、可追蹤、可比較的 threat-hunting function-calling environment。
資料規模與任務覆蓋面
CyberTeam 在規模上也不小。根據論文,它一共包含 30 個 threat-hunting tasks,橫跨上面四大類工作,並結合 23 個 vulnerability databases 與 threat intelligence sources。文中提到的來源包括:
- MITRE ATT&CK、MITRE CVE、CWE、CAPEC、D3FEND
- NVD、Exploit-DB、VulDB
- Microsoft Security Update Guide、IBM X-Force
- VirusTotal、AlienVault OTX、MISP
- Mandiant、Recorded Future、Unit 42 等 threat intelligence 平台或報告來源
這種設計反映出作者不是只想做學術題庫,而是想把 vulnerability metadata、threat intelligence、response knowledge 都一起納入。從藍隊觀點看,這很合理,因為真實分析師也本來就不是只看單一資料庫,而是在多個來源間來回對照。
更重要的是,30 個 task 的設計覆蓋面相當完整。例如在 Threat Attribution 裡就包含:
- Malware Identification
- Signature Matching
- Temporal Pattern Matching
- Affiliation Linking
- Geographic Analysis
- Victimology Profiling
- Infrastructure Extraction
- Actor Identification
- Campaign Correlation
而 Behavior Analysis、Prioritization、Response & Mitigation 也各自有完整子任務,像是:
- Command & Script Analysis
- Event Sequence Reconstruction
- Attack Vector Classification
- Severity Scoring
- Patch Code Generation
- Advisory Correlation
這種 breadth 本身就很有意義,因為它讓 CyberTeam 有機會回答一個比「平均分多少」更有價值的問題:模型到底在哪些藍隊工作段落掉鍊子?
CyberTeam 真正想比的是什麼?
論文的評估問題(RQ)設得很清楚,主要圍繞四件事:
- Embodied functions 相較於 ICL、CoT、ToT 這些常見 prompting 策略,是否更有效?
- LLM 是否真的能解 individual threat-hunting tasks?
- LLM 能不能理解 task dependencies,並選對 function?
- 在有噪音的 threat log 下,這套方法有沒有足夠 robustness?
這四個問題很聰明,因為它們不只是拿 CyberTeam 來排模型名次,而是在測一個更底層的命題:如果你給模型一個結構化藍隊工作環境,它到底會不會沿著這個環境做出比純 prompt engineering 更可靠的行為?
這對所有在做 agentic SOC、CTI copilots、investigation pipelines 的人都很重要。因為很多系統目前的做法,說穿了還是「一個大 prompt + 一點 RAG + 一點工具呼叫」,但缺少明確的 task decomposition 與 function constraints。CyberTeam 等於是在說:也許問題不只是模型不夠強,而是我們還沒有把 threat-hunting workflow 表述成它比較能穩定執行的形式。
這篇論文帶出的幾個重要訊號
雖然論文在本文中沒有像 leaderboard 網頁那樣塞滿所有細節數字,但從設計與作者的實驗敘事,可以讀出幾個值得注意的方向。
1. 藍隊 workflow 的「程序化」比單純提示技巧更重要
CyberTeam 其實在挑戰一個常見迷思:很多人以為把 prompt 寫得更長、更會說話,模型就會更像 analyst。但作者的設計暗示的是另一件事——對藍隊任務來說,真正重要的可能不是更花俏的 prompt,而是更明確的程序框架。
也就是說,與其期待模型自發理解 threat hunting 的工作節奏,不如把需要的操作類型、任務依賴與輸出形式先做結構化。這件事很像把 analyst workflow 從「自由揮灑」改成「標準作業+保留彈性」,而這通常更接近大型團隊真正落地的方式。
2. 真實瓶頸不只在知識,而在任務銜接
CyberTeam 的四段式任務鏈讓人重新看到一個重點:模型未必缺資安知識,但常常缺的是把前一步輸出轉成下一步可用輸入的能力。這其實就是很多 analyst pipeline 失敗的原因。
你可以把它想成:
- 知道某段敘述提到 APT28,不代表你就能正確把它映射到後續 actor identification。
- 抽出了幾個 IOC,不代表你就能正確做 campaign correlation 或 response recommendation。
- 能夠摘要 log,不代表你就能把它轉成 severity judgement。
所以 CyberTeam 的價值,某種程度上不只是 benchmark,而是把 task handoff 這件事抬到台面上來。
3. 藍隊評估正從 QA benchmark 走向 workflow benchmark
如果把它放進近幾篇 sectools.tw 主線來看,會發現一條很清楚的演化:
- 早期 benchmark 常在測知識題、CTI extraction、單一分類任務。
- 後來開始出現更貼近 analyst 工作的 benchmark,例如 CTIArena、AthenaBench、SOC-bench、OpenSec。
- 而 CyberTeam 則站在中間,強調 以 embodied function 為骨架的 workflow evaluation。
它的重要性就在於:它把「工作流程」本身變成評估對象。 這比只是擴大題庫更有價值,因為真實部署時,模型很少是單回合回答一個問題,而是要在流程裡不斷把中間產物往後傳。
從實務角度看,CyberTeam 有什麼價值?
如果你是研究者,CyberTeam 當然是一個 benchmark;但如果你是產品團隊、SOC 架構師或在做內部安全 copilot,我覺得它至少有四個實務啟發。
第一,不要把 blue team automation 想成單一 agent 的自由發揮
很多人一想到 agentic security,直覺上會想做一個超大統一 agent,讓它自己決定該查什麼、做什麼、報什麼。但 CyberTeam 提醒你:更可行的做法可能是把工作拆成有類型的 function,再讓模型在這些 function 之間移動。
第二,task dependency 要做顯式建模
如果你的系統裡,attribution、behavior analysis、prioritization、response 建議之間沒有清楚的資料依賴與驗證規則,那模型再強也很容易在中間某步驟出現連鎖誤差。CyberTeam 的 dependency-chain 設計,正好可以拿來當這類系統設計的參考。
第三,格式約束與程序約束本身就是安全機制
資安任務最怕模型一本正經地胡說。Embodied functions 的一個潛台詞是:當你把模型限制在某些明確函式與輸出型態裡,至少比較容易檢查、比較容易追錯,也比較不容易一路自由幻覺到底。
第四,benchmark 不該只問答對沒,而要問哪一段最脆弱
這點對產品最重要。很多團隊只看總體分數,但 CyberTeam 這種 task-rich benchmark 更適合回答:
- 模型是 attribution 弱?
- 還是 behavior analysis 弱?
- 它在 prioritization 會不會亂判?
- response recommendation 會不會前面都對、最後卻建議錯?
這類診斷資訊,遠比單一 accuracy 更有落地價值。
這篇論文的限制在哪?
CyberTeam 很有價值,但也要看清楚它的邊界。
- 它仍然不是 live operational environment:雖然比純 QA benchmark 更接近 workflow,但它並沒有真的把模型放進會動的企業網路或真實 IR 環境。
- embodied functions 是作者定義的 abstraction:這很有研究價值,但不代表每個實務團隊都會同意這九類 function 正好是最佳切法。
- 部分任務仍偏資料驅動 benchmark:它比一般題庫更流程化,但離真正 analyst 面對雜訊、權限、時間壓力與組織成本的現場,還是有距離。
- 開放式推理仍受限:流程更清楚的代價,往往就是犧牲某些創造性或非預期路徑的探索能力。
所以我會把 CyberTeam 定位成:它不是最終的藍隊 agent deployment benchmark,但它是一個非常重要的過渡層。 它讓評估從「問模型懂不懂」往「看模型能不能沿著藍隊流程做事」推進了一大步。
我的看法:CyberTeam 的重點不是分數,而是它代表的設計哲學
我覺得 CyberTeam 最值得注意的,不是某個模型在某幾項 task 上多幾分,而是它背後反映的那種設計哲學:
- 不要只測知識,要測 workflow。
- 不要只看輸出,要看任務依賴。
- 不要只靠 prompt,要給模型一個可操作的程序骨架。
- 不要只談 autonomous agent,要先把 analyst work decomposition 做清楚。
這幾點其實就是現在很多安全 AI 系統最缺的東西。大家都在追求「更像 agent」,但真正缺的常常不是更多自主性,而是更清楚的工作結構。CyberTeam 正是在提醒我們:如果沒有結構,模型即使會很多,也不一定能沿著藍隊工作的節奏把事情做完。
重點整理
- CyberTeam 想解決的,不是單點資安問答,而是 blue team threat-hunting workflow 的系統化評估。
- 它把 threat hunting 拆成 Threat Attribution、Behavior Analysis、Prioritization、Response & Mitigation 四大階段。
- 核心設計是 task dependency chain,強調上下游任務之間的依賴關係。
- 論文提出 9 種 embodied functions,用來約束模型在不同任務中的操作類型。
- 整體 benchmark 含 30 個 tasks,並整合多個漏洞資料庫與 threat intelligence 來源。
- 它比純 QA benchmark 更接近 analyst workflow,也比完全自由的 agent 展示更可比較、可診斷。
- 對實務最有價值的啟發,是 把 blue team automation 做成有程序、可驗證、可追蹤的 function chain。
- 它的限制是仍不等於 live SOC / IR 環境,但已經是從題庫走向 workflow benchmark 的重要一步。
一句話總結
CyberTeam 最值得看的地方,不是它又建立了一個新的資安 benchmark,而是它把藍隊 threat hunting 重新定義成一條可拆解、可依賴、可程序化執行的工作鏈,讓我們終於能開始更像在評估 analyst workflow,而不只是評估模型會不會答題。
免責聲明
本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要;儘管已盡力確保完整性與可讀性,仍可能因模型理解限制、資料版本差異或語意轉譯而存在疏漏、不精確或更新延遲之處。實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
