論文閱讀分析｜CyberSOCEval：LLM 在惡意程式分析與威脅情資推理上，到底做得多好？

2026 年 4 月 8 日

論文基本資訊

論文標題：CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
作者：Adam Bali、Ciprian Bejean、Diana Bolocan、James Crnkovich 等
年份：2025
來源：CyberSecEval 4 / arXiv
論文連結：https://arxiv.org/abs/2509.20166
HTML 版本：https://arxiv.org/html/2509.20166

一、這篇論文在做什麼？

這篇論文要回答的核心問題很直接：如果把大型語言模型真正丟進 SOC 相關工作裡，它們在關鍵防禦任務上到底有多能打？

作者認為，先前很多資安 benchmark 雖然能測知識題、一般推理題，甚至某些安全任務，但還是沒有真正碰到 SOC 現場最痛的幾個工作瓶頸。於是他們提出 CyberSOCEval，作為一套更偏 defender-centric 的開源評測框架，重點放在兩類任務：

Malware Analysis：讓模型讀 detonation / sandbox 產出的複雜系統與行為資料，判斷惡意程式做了什麼。
Threat Intelligence Reasoning：讓模型讀真實威脅情資報告，回答需要安全語境理解與推理的問題。

換句話說，這篇 paper 不是在問「模型會不會背資安知識」，而是在問：模型能不能真正幫 SOC 分析惡意活動與理解 threat intelligence。

二、作者為什麼要做這套 benchmark？

作者在導論中提出的背景其實很現實：現代 SOC 已經被告警、情資、上下文切換和人力壓力淹沒。大家都在談用 LLM 幫忙自動化，但如果沒有對應的 benchmark，就會出現兩個問題：

模型開發者不知道該往哪種安全能力優化。
實務團隊也不知道哪個模型比較適合拿來做 SOC automation。

這也是 CyberSOCEval 的定位：它不只是做一套分數表，而是想成為一個讓模型開發者與安全團隊都能對齊的 north star。

三、CyberSOCEval 的兩大任務設計

作者把整套 benchmark 分成兩個互補任務，分別對應 SOC 裡兩種非常不同但都很費人的分析工作。

3.1 Malware Analysis Benchmark

這部分要測的是：模型能不能從 malware detonation 之後留下的大量執行線索，判斷程式的惡意行為與意圖。

作者使用的是 sandbox / detonation 產出的 JSON 資料，裡面會包含 process execution、檔案活動、網路活動、靜態與動態分析線索，以及其他系統行為事件。

然後再搭配多選題，要求模型從這些複雜行為資料中判斷正確答案。這個 benchmark 一共有 609 題，基於五類 malware 樣本建立。

3.2 Threat Intelligence Reasoning Benchmark

第二部分則是在測模型對 threat intelligence report 的理解與推理能力。這不是單純摘要，而是要求模型理解報告中的攻擊鏈、TTP、對象產業與更高層的威脅語意。

這一組資料來自 45 份 threat intelligence reports，最後形成 588 組 question-answer pairs。其中有 APT campaign 分析、malware technical reports、漏洞公告等不同來源。

這部分有一個很重要的設計：作者不是只給純文字，而是把報告頁面當成 image inputs 給模型，因為真實情資報告常常混有表格、流程圖、圖表、IOC 區塊等多種表現形式。

四、這篇論文的方法重點：不是訓練模型，而是做評測工程

這篇論文不是提出新神經網路架構，也不是提出新的 loss function。它的重點在於如何把 SOC 任務變成可重複、可自動化、可量化的 benchmark。

作者明確提出三個設計標準：

高分要能對應真實效率提升
評測必須可自動化
題量必須夠大，能分辨模型差異

因此兩個 benchmark 最後都被轉成 multiple-choice 格式，而且是多選、且要求完全正確。也就是模型不只要選到對的，還不能多選錯的，才算答對。

五、資料集怎麼做出來的？

這篇 paper 很值得注意的一點，是資料集不是憑空生成，而是建立在真實安全材料上，再加上 LLM 協助出題與專家人工校正。

5.1 Malware Analysis 資料生成

作者挑選公開惡意樣本，在控制環境中執行。
使用 CrowdStrike Falcon Sandbox / Hybrid Analysis 類型報告作為原始材料。
使用 Llama 3.2 90B 生成問題與答案草稿。
再由資安專家逐題人工驗證與編修。

5.2 Threat Intelligence Reasoning 資料生成

作者以真實 threat reports 為基礎。
使用兩種策略出題：category-based 與 relationship-based。
部分問題還是人工手寫，特別用來測圖像元素理解。
最後同樣經過人工驗證，確保品質與難度。

也就是說，這套 benchmark 的建構邏輯是：真實資安材料 + LLM 擴張題目 + 人工專家品質控管。

六、評估指標怎麼定義？

兩個 benchmark 最核心的指標都是 accuracy，而且是很嚴格的 exact-match 版本：模型必須選到所有正確選項，且不能多選錯誤項，才算答對。

這個設計的好處是評測清楚、可重現；代價則是它比真實世界任務更離散，也更不容許 partial credit。作者另外也補充使用 Jaccard similarity 來看部分重疊情況，但論文主結果仍以 accuracy 為主。

七、主要實驗結果：現在的模型其實還差很遠

這篇論文最重要的訊息之一，就是：目前 LLM 在這兩類任務上都還遠遠沒有飽和。

7.1 Malware Analysis 成績

作者報告指出，Malware Analysis benchmark 上，各模型整體 accuracy 大約落在 23% ～ 34%。

相比之下，完全隨機亂猜的 baseline 大約只有 0.63%，所以模型當然不是毫無能力；但如果從實務角度看，這個分數也清楚說明：模型距離可靠地取代惡意程式分析師，還有非常大落差。

7.2 Threat Intelligence Reasoning 成績

Threat Intelligence Reasoning 的整體 accuracy 大約在 43% ～ 53%，而隨機基線只有 1.7%。

這表示模型對 threat intelligence report 的理解，確實比亂猜強很多，但依然離「可以放心自動處理」有距離。

八、作者觀察到的三個關鍵現象

8.1 模型越新、越大，通常越強

這部分基本符合 scaling law 直覺：更大、更現代的模型通常成績更好。也就是說，SOC 任務並沒有推翻一般 LLM 發展趨勢。

8.2 reasoning model 沒有展現 coding / math 那種跳躍式優勢

這是全文很有意思的一點。作者原本期待 test-time reasoning 類模型，在這些安全任務上也會像數學、程式題一樣大幅領先；但結果並沒有。

作者的推測是：這些模型雖然會一般性推理，但不代表它們已經學會資安領域的推理方式。 換句話說，cyber reasoning 可能需要更針對性的資料與訓練。

8.3 threat report 用純文字，反而比只用影像更好

在 Threat Intelligence Reasoning benchmark 裡，作者額外比較了三種輸入方式：只給 images、只給 extracted text、同時給 text + images。

結果很明確：對所有模型來說，純文字輸入通常比只用圖片效果更好。 甚至 text + image 也未必比 text-only 更強。

這代表一件很現實的事：雖然我們常說模型已經是 multimodal，但在真正需要讀懂 threat report 圖文混排內容時，視覺理解仍然不是穩定優勢。

九、這篇論文對 CTI / SOC 實務最大的意義是什麼？

如果從 sectools.tw 讀者的角度看，這篇 paper 的價值不只是又多一個 benchmark，而是它把問題拉回很實務的層次：

你不能只看模型會不會答資安知識題。
你要看它能不能讀懂 sandbox 行為、能不能理解 threat report。
你也不能因為模型在 coding 很強，就直接假設它在 SOC 任務也一樣強。

對 CTI 與 SOC 團隊來說，這篇文章其實是在提醒：今天的 LLM 可以當副駕，但還不是成熟的自駕。

十、論文限制與作者自己承認的問題

作者也很清楚這套 benchmark 的限制，包括：

multiple-choice 格式不等於真實開放式工作
資料生成流程可能對用來輔助出題的模型有偏差
benchmark 的資料分佈不會等於任何單一組織的真實資料分佈
Threat Intelligence 題組雖然有 multimodal，但仍偏文字導向

所以這篇論文沒有聲稱「分數就是實戰能力」，而是把它定位成：比較模型相對能力的 hill to climb。

十一、如果用一句話總結這篇 paper

CyberSOCEval 告訴我們：LLM 在 SOC 任務上已經展現出明顯能力，但不論是 malware analysis 還是 threat intelligence reasoning，都還遠遠沒有到可以放心自動化的程度。

十二、我的閱讀整理

這篇論文的價值，在於 benchmark 真的貼近 SOC 現場，而不是停在一般資安知識問答。
最值得記住的結果不是誰第一，而是所有模型都還沒把這兩個任務做滿。
reasoning model 沒有在 cyber 任務上出現想像中的巨大優勢，這點特別重要。
multimodal 也沒有因為能吃圖片就自動更強，text-only 反而常常比較穩。

論文閱讀分析｜CyberSOCEval：LLM 在惡意程式分析與威脅情資推理上，到底做得多好？

論文基本資訊

一、這篇論文在做什麼？

二、作者為什麼要做這套 benchmark？

三、CyberSOCEval 的兩大任務設計

3.1 Malware Analysis Benchmark

3.2 Threat Intelligence Reasoning Benchmark

四、這篇論文的方法重點：不是訓練模型，而是做評測工程

五、資料集怎麼做出來的？

5.1 Malware Analysis 資料生成

5.2 Threat Intelligence Reasoning 資料生成

六、評估指標怎麼定義？

七、主要實驗結果：現在的模型其實還差很遠

7.1 Malware Analysis 成績

7.2 Threat Intelligence Reasoning 成績

八、作者觀察到的三個關鍵現象

8.1 模型越新、越大，通常越強

8.2 reasoning model 沒有展現 coding / math 那種跳躍式優勢

8.3 threat report 用純文字，反而比只用影像更好

九、這篇論文對 CTI / SOC 實務最大的意義是什麼？

十、論文限制與作者自己承認的問題

十一、如果用一句話總結這篇 paper

十二、我的閱讀整理

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

一、這篇論文在做什麼？

二、作者為什麼要做這套 benchmark？

三、CyberSOCEval 的兩大任務設計

3.1 Malware Analysis Benchmark

3.2 Threat Intelligence Reasoning Benchmark

四、這篇論文的方法重點：不是訓練模型，而是做評測工程

五、資料集怎麼做出來的？

5.1 Malware Analysis 資料生成

5.2 Threat Intelligence Reasoning 資料生成

六、評估指標怎麼定義？

七、主要實驗結果：現在的模型其實還差很遠

7.1 Malware Analysis 成績

7.2 Threat Intelligence Reasoning 成績

八、作者觀察到的三個關鍵現象

8.1 模型越新、越大，通常越強

8.2 reasoning model 沒有展現 coding / math 那種跳躍式優勢

8.3 threat report 用純文字，反而比只用影像更好

九、這篇論文對 CTI / SOC 實務最大的意義是什麼？

十、論文限制與作者自己承認的問題

十一、如果用一句話總結這篇 paper

十二、我的閱讀整理

發佈留言 取消回覆

You may also like

FALCON 論文閱讀分析：用 Agentic LLM 從 CTI 自動生成可部署的 IDS 規則

CyberTeam 論文閱讀分析：把藍隊 Threat Hunting 真正拆成一條可執行的 LLM workflow

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆