論文閱讀分析|CyberSOCEval:LLM 在惡意程式分析與威脅情資推理上,到底做得多好?

論文基本資訊

  • 論文標題:CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
  • 作者:Adam Bali、Ciprian Bejean、Diana Bolocan、James Crnkovich 等
  • 年份:2025
  • 來源:CyberSecEval 4 / arXiv
  • 論文連結:https://arxiv.org/abs/2509.20166
  • HTML 版本:https://arxiv.org/html/2509.20166

一、這篇論文在做什麼?

這篇論文要回答的核心問題很直接:如果把大型語言模型真正丟進 SOC 相關工作裡,它們在關鍵防禦任務上到底有多能打?

作者認為,先前很多資安 benchmark 雖然能測知識題、一般推理題,甚至某些安全任務,但還是沒有真正碰到 SOC 現場最痛的幾個工作瓶頸。於是他們提出 CyberSOCEval,作為一套更偏 defender-centric 的開源評測框架,重點放在兩類任務:

  • Malware Analysis:讓模型讀 detonation / sandbox 產出的複雜系統與行為資料,判斷惡意程式做了什麼。
  • Threat Intelligence Reasoning:讓模型讀真實威脅情資報告,回答需要安全語境理解與推理的問題。

換句話說,這篇 paper 不是在問「模型會不會背資安知識」,而是在問:模型能不能真正幫 SOC 分析惡意活動與理解 threat intelligence。

二、作者為什麼要做這套 benchmark?

作者在導論中提出的背景其實很現實:現代 SOC 已經被告警、情資、上下文切換和人力壓力淹沒。大家都在談用 LLM 幫忙自動化,但如果沒有對應的 benchmark,就會出現兩個問題:

  • 模型開發者不知道該往哪種安全能力優化。
  • 實務團隊也不知道哪個模型比較適合拿來做 SOC automation。

這也是 CyberSOCEval 的定位:它不只是做一套分數表,而是想成為一個讓模型開發者與安全團隊都能對齊的 north star

三、CyberSOCEval 的兩大任務設計

作者把整套 benchmark 分成兩個互補任務,分別對應 SOC 裡兩種非常不同但都很費人的分析工作。

3.1 Malware Analysis Benchmark

這部分要測的是:模型能不能從 malware detonation 之後留下的大量執行線索,判斷程式的惡意行為與意圖。

作者使用的是 sandbox / detonation 產出的 JSON 資料,裡面會包含 process execution、檔案活動、網路活動、靜態與動態分析線索,以及其他系統行為事件。

然後再搭配多選題,要求模型從這些複雜行為資料中判斷正確答案。這個 benchmark 一共有 609 題,基於五類 malware 樣本建立。

3.2 Threat Intelligence Reasoning Benchmark

第二部分則是在測模型對 threat intelligence report 的理解與推理能力。這不是單純摘要,而是要求模型理解報告中的攻擊鏈、TTP、對象產業與更高層的威脅語意。

這一組資料來自 45 份 threat intelligence reports,最後形成 588 組 question-answer pairs。其中有 APT campaign 分析、malware technical reports、漏洞公告等不同來源。

這部分有一個很重要的設計:作者不是只給純文字,而是把報告頁面當成 image inputs 給模型,因為真實情資報告常常混有表格、流程圖、圖表、IOC 區塊等多種表現形式。

四、這篇論文的方法重點:不是訓練模型,而是做評測工程

這篇論文不是提出新神經網路架構,也不是提出新的 loss function。它的重點在於如何把 SOC 任務變成可重複、可自動化、可量化的 benchmark

作者明確提出三個設計標準:

  • 高分要能對應真實效率提升
  • 評測必須可自動化
  • 題量必須夠大,能分辨模型差異

因此兩個 benchmark 最後都被轉成 multiple-choice 格式,而且是多選、且要求完全正確。也就是模型不只要選到對的,還不能多選錯的,才算答對。

五、資料集怎麼做出來的?

這篇 paper 很值得注意的一點,是資料集不是憑空生成,而是建立在真實安全材料上,再加上 LLM 協助出題與專家人工校正。

5.1 Malware Analysis 資料生成

  • 作者挑選公開惡意樣本,在控制環境中執行。
  • 使用 CrowdStrike Falcon Sandbox / Hybrid Analysis 類型報告作為原始材料。
  • 使用 Llama 3.2 90B 生成問題與答案草稿。
  • 再由資安專家逐題人工驗證與編修。

5.2 Threat Intelligence Reasoning 資料生成

  • 作者以真實 threat reports 為基礎。
  • 使用兩種策略出題:category-based 與 relationship-based。
  • 部分問題還是人工手寫,特別用來測圖像元素理解。
  • 最後同樣經過人工驗證,確保品質與難度。

也就是說,這套 benchmark 的建構邏輯是:真實資安材料 + LLM 擴張題目 + 人工專家品質控管

六、評估指標怎麼定義?

兩個 benchmark 最核心的指標都是 accuracy,而且是很嚴格的 exact-match 版本:模型必須選到所有正確選項,且不能多選錯誤項,才算答對。

這個設計的好處是評測清楚、可重現;代價則是它比真實世界任務更離散,也更不容許 partial credit。作者另外也補充使用 Jaccard similarity 來看部分重疊情況,但論文主結果仍以 accuracy 為主。

七、主要實驗結果:現在的模型其實還差很遠

這篇論文最重要的訊息之一,就是:目前 LLM 在這兩類任務上都還遠遠沒有飽和。

7.1 Malware Analysis 成績

作者報告指出,Malware Analysis benchmark 上,各模型整體 accuracy 大約落在 23% ~ 34%

相比之下,完全隨機亂猜的 baseline 大約只有 0.63%,所以模型當然不是毫無能力;但如果從實務角度看,這個分數也清楚說明:模型距離可靠地取代惡意程式分析師,還有非常大落差。

7.2 Threat Intelligence Reasoning 成績

Threat Intelligence Reasoning 的整體 accuracy 大約在 43% ~ 53%,而隨機基線只有 1.7%

這表示模型對 threat intelligence report 的理解,確實比亂猜強很多,但依然離「可以放心自動處理」有距離。

八、作者觀察到的三個關鍵現象

8.1 模型越新、越大,通常越強

這部分基本符合 scaling law 直覺:更大、更現代的模型通常成績更好。也就是說,SOC 任務並沒有推翻一般 LLM 發展趨勢。

8.2 reasoning model 沒有展現 coding / math 那種跳躍式優勢

這是全文很有意思的一點。作者原本期待 test-time reasoning 類模型,在這些安全任務上也會像數學、程式題一樣大幅領先;但結果並沒有。

作者的推測是:這些模型雖然會一般性推理,但不代表它們已經學會資安領域的推理方式。 換句話說,cyber reasoning 可能需要更針對性的資料與訓練。

8.3 threat report 用純文字,反而比只用影像更好

在 Threat Intelligence Reasoning benchmark 裡,作者額外比較了三種輸入方式:只給 images、只給 extracted text、同時給 text + images。

結果很明確:對所有模型來說,純文字輸入通常比只用圖片效果更好。 甚至 text + image 也未必比 text-only 更強。

這代表一件很現實的事:雖然我們常說模型已經是 multimodal,但在真正需要讀懂 threat report 圖文混排內容時,視覺理解仍然不是穩定優勢。

九、這篇論文對 CTI / SOC 實務最大的意義是什麼?

如果從 sectools.tw 讀者的角度看,這篇 paper 的價值不只是又多一個 benchmark,而是它把問題拉回很實務的層次:

  • 你不能只看模型會不會答資安知識題。
  • 你要看它能不能讀懂 sandbox 行為、能不能理解 threat report。
  • 你也不能因為模型在 coding 很強,就直接假設它在 SOC 任務也一樣強。

對 CTI 與 SOC 團隊來說,這篇文章其實是在提醒:今天的 LLM 可以當副駕,但還不是成熟的自駕。

十、論文限制與作者自己承認的問題

作者也很清楚這套 benchmark 的限制,包括:

  • multiple-choice 格式不等於真實開放式工作
  • 資料生成流程可能對用來輔助出題的模型有偏差
  • benchmark 的資料分佈不會等於任何單一組織的真實資料分佈
  • Threat Intelligence 題組雖然有 multimodal,但仍偏文字導向

所以這篇論文沒有聲稱「分數就是實戰能力」,而是把它定位成:比較模型相對能力的 hill to climb

十一、如果用一句話總結這篇 paper

CyberSOCEval 告訴我們:LLM 在 SOC 任務上已經展現出明顯能力,但不論是 malware analysis 還是 threat intelligence reasoning,都還遠遠沒有到可以放心自動化的程度。

十二、我的閱讀整理

  • 這篇論文的價值,在於 benchmark 真的貼近 SOC 現場,而不是停在一般資安知識問答。
  • 最值得記住的結果不是誰第一,而是所有模型都還沒把這兩個任務做滿。
  • reasoning model 沒有在 cyber 任務上出現想像中的巨大優勢,這點特別重要。
  • multimodal 也沒有因為能吃圖片就自動更強,text-only 反而常常比較穩。

You may also like