SIABench 論文閱讀分析：在你把 SOC 方向盤交給 LLM 前，先看看它到底會不會做 Incident Analysis

2026 年 4 月 9 日

論文基本資訊

論文標題：Before You Hand Over the Wheel: Evaluating LLMs for Security Incident Analysis
作者：Suryadipta Majumdar 等
年份：2026
來源：arXiv:2603.06422
論文連結：https://arxiv.org/abs/2603.06422
DOI：10.48550/arXiv.2603.06422
主題：SOC、Security Incident Analysis、LLM Evaluation、Agentic AI、Alert Triage、Memory Forensics、Malware Analysis、Benchmark

如果最近一批 sectools.tw 的主線，已經一路從 CTI benchmark、threat hunting、alert triage、incident response agent，走到更貼近 production 的 agentic security，那這篇 SIABench 值得補進來的原因很直接：它問的不是模型會不會回答資安問題，而是當 SOC 真的把方向盤交給 LLM 之前，我們到底有沒有用足夠接近 Security Incident Analysis 的方式評估過它？

這篇論文的切入角度很對。因為真實的 Security Incident Analysis（SIA），從來就不是單一問答題，也不是把某篇 CTI 報告丟進模型後問它「這是什麼 ATT&CK technique」就結束。真正的 incident analysis，通常同時牽涉：

大量且異質的證據來源
不只一個分析目標
要在多種工具之間來回切換
還要處理 false positives 與 analyst fatigue

也就是說，這是一種多步驟、多目標、跨工具、持續修正的工作。SIABench 的價值，就在於它沒有再用一個過度簡化的 benchmark 來假裝自己在量 SIA，而是嘗試把這件事拉回比較像 SOC 現場的形狀。

這篇論文想解決什麼？

作者一開始就把問題點得很清楚：SOCs 面對 incident analysis 時，最大的壓力來自幾件事同時疊加——告警量過大、資料型態很多、工具鏈複雜、分析師經驗不均，而且事件本身還會動態演化。這些特徵會讓 SIA 和一般 benchmark 題目有本質上的差異。

作者認為，目前產業雖然很積極想把 LLM 放進 SOC，但最大的缺口不是模型供給不足，而是缺少嚴謹 benchmark 去回答三個根本問題：

LLM 對 SIA 任務到底有效到什麼程度？
它們目前真正的失敗點在哪裡？
如果未來模型一直更新，我們要怎麼持續評估與選型？

換句話說，這篇不是在做另一個「安全版答題排行榜」，而是在回答一個更現實的問題：

如果 SOC 想讓 LLM 幫忙做 incident analysis，那在交出控制權之前，至少要先有一個像樣的測法。

SIABench 的核心設計：把 SIA 拆成兩條主線

這篇論文最重要的貢獻，是提出一個 agentic evaluation framework：SIABench。它不是只給一份題庫，而是把 SIA 明確拆成兩種不同層級的工作：

Deep analysis workflows：25 個 incident scenarios、229 個 investigative questions
Alert triage tasks：135 個 alert scenarios，且同時包含 true positives 與 false positives

這個拆法很有意義。因為很多安全 AI 評測最大的問題，就是把所有工作都混成一種「模型會不會做資安」的總體印象。但真實 SOC 明明就有層次差異：

alert triage 比較像低階、高量、需要快速判斷的任務
deep investigation 則需要更長鏈的推理、工具使用與證據整合

作者把這兩種任務分開評，等於在做一件很重要的事：把「能不能看懂警報」和「能不能真的追出事件脈絡」分開量。

這不是紙上 benchmark，而是帶工具環境的 agentic evaluation

SIABench 另一個值得注意的地方，是它不是只給模型文字描述。作者實作了一個 SIA agent，讓不同 LLM 作為底層模型時，都能在相同框架下執行 incident analysis 任務。

論文中強調，這個 agent 至少具備四種能力：

動態存取工具與分析環境：可檢查事件相關 artifact
多步推理：面對多目標 incident scenario 時，不只做一次性回答
長鏈規劃中的資訊篩選：避免 context 被雜訊淹沒
多模型可插拔：能掛上不同 LLM 做公平比較

這裡作者刻意把 scaffolding 壓低。意思是：他們不是想靠很厚的 workflow engineering 把模型硬撐起來，而是希望比較直接地看出 off-the-shelf LLM 在 SIA 裡到底有多少本體能力。這點我很認同，因為如果代理層包裝太重，最後你測到的可能不是模型，而是你的系統工程。

資料集怎麼來的？這篇的資料觀有誠意

SIABench 的 dataset 不是隨手從公開 write-up 抽幾題拼起來。作者說明得很細：SIA dataset 是與一位有 25+ 年經驗的 senior SOC expert 共同開發，另外還有現役 SOC operator / trainer 與具滲測和 SANS 背景的實務者參與，歷經數個月、四輪 review 與 validation 才完成。

在 scenario 來源上，他們從公開的藍隊訓練平台挑選 free scenarios，例如：

CyberDefenders
Blue Team Labs Online
TryHackMe

選擇這些來源的好處，是可以保留 open dataset 的可重現性；但作者也很清楚這會帶來 contamination 風險。這篇處理 contamination 的方法值得記一下，因為它比很多 benchmark 更認真：

Content paraphrasing：重寫 scenario 描述，降低模型直接背答案的機率
Identifier neutralization：移除公司名、人名與容易觸發記憶的專有識別
Artifact/file standardization：重新命名檔案，避免靠 filename 喚醒記憶
Question debiasing：把引導式題目改寫成 evidence-first 的分析型問題

這些處理看起來像資料清洗細節，但其實很關鍵。因為在 LLM benchmark 裡，最危險的常常不是模型太弱，而是題目寫法偷偷幫了模型太多。

它到底測哪些工作？比多數 benchmark 都更接近真實 SOC

SIABench 把 SIA 任務分成幾個大類，涵蓋：

Network Forensics
Memory Forensics
Malware Analysis（binary / code / PDF 等）
Phishing Email / Phishing Kit Analysis
Log Analysis
False-alert Detection

這一點是它最有辨識度的地方。很多 security benchmark 其實還是停留在知識題、mapping 題、或單一 artifact 題。但真實 incident analysis 往往是混合型的：你可能先看告警，再看網路流量，再看記憶體，再回頭判斷某封 email 是否是 phishing chain 的入口。SIABench 至少開始把這種混合任務正式納進評估。

而且論文不是只看單一難度，還把 deep analysis task 分成 easy / medium / hard。這也很合理，因為 junior analyst 能不能處理簡單 triage，不等於能不能跨多種 artifact 重建完整 attack timeline。

這篇論文的一個成熟之處：它明確把評估對象設在 junior analyst competency

作者在 scope and assumptions 裡講得很坦白：這篇評估的不是「LLM 能不能取代資深 incident commander」，而是它是否已達到 junior SOC analyst 值得自動化的能力門檻。

這個 framing 很重要，因為它避開了很多 AI-for-security 論文常見的過度承諾。真實 SOC 本來就是分層體系：

高階判斷、跨系統風險承擔、重大處置決策，還是高度依賴人類
較低階、重複、高量的工作，才是比較合理的自動化切入點

所以 SIABench 的隱含立場其實很務實：先證明 LLM 至少能在 junior-level incident tasks 上穩定表現，再來談更高自治。

主要結果：模型有在進步，但離「可以放心交車」還很遠

論文評估了 11 個主要 LLM，涵蓋 open-weight 與 closed-weight 模型。作者觀察到一個不算意外、但很重要的結論：近 18 個月內，模型在 SIA 任務上的表現確實持續上升，較新的模型在複雜任務上明顯優於舊一代模型。

論文摘要與正文特別點名，像 Claude 4.5 Sonnet 與 GPT-5 這類較新的模型，在更複雜的 deep analysis 任務上明顯領先先前世代。這說明一件事：SIA 並不是模型完全做不到，而是目前仍處於「看得見進步，但可靠性還遠遠不夠」的階段。

我覺得這篇最值得記住的，不是某個排行榜名次，而是它傳達出來的現實感：

模型在簡單或中階任務上可能已開始具備輔助價值
但越往複雜 incident reconstruction、多工具切換、多目標調查走，能力缺口就越明顯
也因此，真正重要的不是「LLM 可以不可以用」，而是哪一類 SIA 子任務適合讓它先接手，哪一類還不行

為什麼這篇比很多 benchmark 更值得看？

我認為有三個原因。

1. 它測的是 workflow，不只是知識

這篇沒有停在問模型記不記得 ATT&CK、懂不懂 CVE、會不會做 mapping，而是開始測 incident analysis workflow。這使它比一般知識型 benchmark 更接近真實 SOC 能力。

2. 它同時納入 false positives 與深度調查

很多 benchmark 只測「真有攻擊時能不能看出來」，但 SOC 的現實是大量時間其實花在排除不值得往下追的東西。SIABench 把 alert triage 獨立拉出來，是很必要的一步。

3. 它有明確處理 contamination 與問題引導偏差

這讓結果更值得信。因為當你要評估的是安全分析能力，而不是模型有沒有背過 write-up，資料處理就不能馬虎。

這篇也有幾個應該保留的地方

當然，SIABench 並不是沒有侷限。

資料仍大量來自訓練平台與公開 write-up：即使有去污染設計，和企業 SOC 真實內部事件仍有距離。
focus 在 junior analyst competency：這很務實，但也表示它還不能直接代表高階 incident command 能力。
刻意壓低 agent scaffolding：有助於看模型本體，但也可能低估「在好系統工程加持下」的實際可用性。
模型與基礎設施持續快速迭代：benchmark 必須不斷更新，否則很快又會落入靜態題庫老問題。

不過這些限制不是這篇的弱點，反而更像它的誠實之處。作者沒有把 paper 包裝成「我們終於找到 SOC 自動化的終極答案」，而是比較清楚地說：先把測法搭起來，才有資格談下一步。

和近期 agentic security 脈絡怎麼接？

如果把最近這些 paper 排成一條線來看，其實很清楚：

CTIBench / AthenaBench / CS-Eval 這類工作，在補「模型懂多少」
ExCyTIn-Bench / OpenSec / CORTEX 這類工作，在補「模型會不會做 investigation / triage / response」
SIABench 則更進一步，嘗試把 security incident analysis 這件事本身變成一個可持續評估、可追蹤演進的 agentic benchmark

它的定位因此很明確：不是再發明一個更大題庫，而是把 SOC 真正在意的 SIA 工作切成更可評估的兩層，讓後續 agent 設計、model selection、scaffolding 取捨，都有比較像樣的依據。

我的看法

我很喜歡這篇 paper 的標題：Before You Hand Over the Wheel。因為這句話本身就點出現在 security AI 最需要的態度——不是先問模型多炫，而是先問我們到底憑什麼信它。

對 SOC 來說，真正危險的從來不是模型偶爾答錯一題，而是組織在沒有建立合理評估框架之前，就把太多判斷權交出去。SIABench 的價值，正是替這件事補了一塊基礎設施：在你把方向盤交出去之前，至少先知道它在哪些路況下會翻車。

如果要把這篇濃縮成一句話，我會這樣說：

SIABench 的真正貢獻，不只是證明新模型比舊模型更會做 Security Incident Analysis，而是把「LLM 到底值不值得被放進 SOC 分析鏈」這個問題，第一次用更接近真實 incident workflow 的方式系統化量出來。

免責聲明

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文僅供研究交流與知識分享參考；實際技術細節、實驗設定與最終結論，仍應以原始論文、正式出版版本與作者公開資料為準。

SIABench 論文閱讀分析：在你把 SOC 方向盤交給 LLM 前，先看看它到底會不會做 Incident Analysis

論文基本資訊

這篇論文想解決什麼？

SIABench 的核心設計：把 SIA 拆成兩條主線

這不是紙上 benchmark，而是帶工具環境的 agentic evaluation

資料集怎麼來的？這篇的資料觀有誠意

它到底測哪些工作？比多數 benchmark 都更接近真實 SOC

這篇論文的一個成熟之處：它明確把評估對象設在 junior analyst competency

主要結果：模型有在進步，但離「可以放心交車」還很遠

為什麼這篇比很多 benchmark 更值得看？

1. 它測的是 workflow，不只是知識

2. 它同時納入 false positives 與深度調查

3. 它有明確處理 contamination 與問題引導偏差

這篇也有幾個應該保留的地方

和近期 agentic security 脈絡怎麼接？

我的看法

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

SIABench 的核心設計：把 SIA 拆成兩條主線

這不是紙上 benchmark，而是帶工具環境的 agentic evaluation

資料集怎麼來的？這篇的資料觀有誠意

它到底測哪些工作？比多數 benchmark 都更接近真實 SOC

這篇論文的一個成熟之處：它明確把評估對象設在 junior analyst competency

主要結果：模型有在進步，但離「可以放心交車」還很遠

為什麼這篇比很多 benchmark 更值得看？

1. 它測的是 workflow，不只是知識

2. 它同時納入 false positives 與深度調查

3. 它有明確處理 contamination 與問題引導偏差

這篇也有幾個應該保留的地方

和近期 agentic security 脈絡怎麼接？

我的看法

免責聲明

發佈留言 取消回覆

You may also like

Your Agent is More Brittle Than You Think 論文閱讀分析：真正會害死 Agent 的，常常不是一句明著來的指令，而是它正常讀到的外部內容

Prompt Injection SoK 論文閱讀分析：真正該被治理的，早就不只是 prompt，而是整條 coding agent 會接觸到的控制面

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆