CyberMetric 論文閱讀分析:當你評估 LLM 資安能力前,得先有一個像樣的 benchmark
CyberMetric 不只是又一個資安題庫,而是用 RAG 建題、多模型過濾與 200+ 小時人工驗證,嘗試回答更底層的問題:在談 CTI、SOC 與 incident response 之前,我們究竟該如何公平評估 LLM 的廣義資安知識能力。
2026 年 4 月 8 日
CyberMetric 不只是又一個資安題庫,而是用 RAG 建題、多模型過濾與 200+ 小時人工驗證,嘗試回答更底層的問題:在談 CTI、SOC 與 incident response 之前,我們究竟該如何公平評估 LLM 的廣義資安知識能力。
這篇研究不是再做一個 SOC agent demo,而是分析 45 位 SOC 分析師在 10 個月內的 3090 筆真實查詢,回答一個更重要的問題:LLM 在安全營運中心裡,究竟是決策者、寫作助手,還是即時的認知輔助工具。
論文基本資訊 論文標題:CyberAll...
CyberSOCEval 不是在測模型會不會背資安知識,而是在測它能不能讀懂 malware detonation 資料與 threat intelligence report。論文結果很清楚:現在的 LLM 已經有能力,但離可靠自動化 SOC 核心工作,還有很大距離。
論文基本資訊 論文標題:ExCyTIn-...
FALCON 提出一條更接近 SOC 現場的 CTI 自動化路線:不是只用 LLM 看懂威脅情資,而是透過檢索、生成、語法/語意/效能驗證,把 CTI 直接轉成可部署的 Snort 與 YARA 規則。