SECURE 論文閱讀分析：當資安 LLM 看起來什麼都懂，最危險的往往是它其實不肯承認自己不知道

2026 年 4 月 11 日

論文基本資訊

論文標題：Benchmarking Large Language Models for Cybersecurity
Benchmark 名稱：SECURE（Security Extraction, Understanding & Reasoning Evaluation）
作者：Dipkamal Bhusal、Md Tanvirul Alam、Le Nguyen、Nidhi Rastogi 等
年份：2024
來源：arXiv:2405.20441
論文連結：https://arxiv.org/abs/2405.20441
程式碼／資料：https://github.com/aiforsec/SECURE
主題：Cybersecurity Benchmark、LLM Evaluation、ICS Security、CVE/CWE、Risk Reasoning、Truthfulness

如果最近一波 sectools.tw 的主線，一路在追 CTI benchmark、agentic SOC、incident response、multi-step security workflow，那 SECURE 這篇論文值得補進來的原因，反而不是它又做了一個更大的排行榜，而是它抓到一個比較基本、但其實更不舒服的問題：在你把 LLM 放進高風險資安流程之前，你到底有沒有先確認它在「提取、理解、推理」這三個層次上，至少不是一個會一本正經胡說八道的 advisory engine？

這篇論文的切入點很務實。作者不是從「模型有多聰明」出發，而是從能不能被拿來當 cyber advisory 工具出發。換句話說，它關心的不是模型是否能在抽象 benchmark 上答對幾題，而是：當你問它 MITRE ATT&CK、CWE、CVE、CISA ICS advisory、CVSS 這些實際會進入安全營運判斷的內容時，它到底是在幫忙，還是在製造一種危險的假把握？

本文由 AI 產生、整理與撰寫。

這篇論文想解決什麼問題？

作者的批判其實很直接：現有很多 LLM benchmark 太一般化，無法回答資安現場真正會問的問題。像 GLUE、MMLU、HELM 這類 benchmark 當然有價值，但它們大多數是在測廣義語言能力，而不是測模型能否在專業、更新快、術語密、容錯率低的安全領域裡可靠地工作。

這篇論文真正要補的缺口，可以濃縮成三點：

只測記憶，不測實務理解：知道幾個名詞，不代表看得懂最新漏洞敘述。
只測知識，不測推理：答得出 ATT&CK technique，不代表能從 advisory 裡整理出風險判斷。
只測會不會答，不測會不會誠實承認不知道：這在資安裡尤其危險，因為過度自信比空白更傷。

所以 SECURE 的核心問題不是「哪個模型分數最高」，而是：

如果我們真的把 LLM 當成 cyber advisor，那它在 extraction、understanding、reasoning 三種不同知識層次上，究竟可靠到什麼程度？

SECURE 的核心設計：不是一個 dataset，而是一組知識能力剖面

這篇論文最有價值的地方，在於它沒有把資安能力縮成單一分數，而是把評估拆成三個層次：

Extraction：模型能不能從既有知識中正確提取安全事實？
Understanding：模型能不能讀懂新近漏洞敘述，分辨敘述真偽與資訊邊界？
Reasoning：模型能不能根據安全細節做風險判斷與計算推理？

這個切法非常重要。因為很多安全應用失敗，不是失敗在同一個地方。有些模型是記得很多，但看不懂最新資料；有些模型是讀得懂敘述，但不會把技術細節轉成風險結論；還有一類更危險：其實不知道，但不肯承認不知道。SECURE 試圖把這些失敗模式拆開來看，而不是全部揉成一個平均正確率。

六個資料集在測什麼？

SECURE 總共由六個資料集組成，分別對應不同層次的能力。

一、Extraction：MAET 與 CWET

MAET（MITRE Attack Extraction Task）與 CWET（Common Weakness Extraction Task）主要在測模型是否能從其既有知識中，正確提取 ICS 安全脈絡下的 ATT&CK technique、mitigation 與 CWE 弱點知識。這部分比較像 closed-book 測驗，也就是不額外提供上下文，直接問模型是否「真的記得」。

作者選擇 MITRE ATT&CK for ICS 與 CWE-1358 這些來源，不只是因為它們權威，而是因為它們高度結構化，足以形成嚴肅的 extraction test。這類題目在實務上的意義很明確：當分析師把 LLM 當知識查詢入口時，它給的答案究竟是可靠的知識召回，還是順口編造？

二、Understanding：KCV 與 VOOD

我認為 SECURE 最值得注意的部分，是 KCV 與 VOOD 這兩個 understanding 任務。作者刻意使用 2024 年 CVE，並確認所測模型的訓練截止時間早於這些資料，目的就是逼模型不要靠訓練記憶，而必須真的去閱讀給定描述。

KCV 會提供 CVE JSON 描述，再問模型某些敘述是 True 還是 False。這測的不是背誦，而是文本理解。VOOD 更尖銳：它故意設計出沒有足夠上下文就不該回答的題目，看模型會不會老實承認不知道。

這件事非常關鍵。因為在漏洞管理、威脅評估、廠商 advisories 研讀裡，最危險的常常不是模型完全不會，而是它用一種很流利的語氣，替你補上一段根本沒被證實的內容。SECURE 把這個問題拉到台面上，而且用 out-of-distribution 的方式硬測，這比很多只看「答對率」的 benchmark 誠實得多。

三、Reasoning：RERT 與 CPST

RERT（Risk Evaluation Reasoning Task）要求模型根據 CISA ICS advisory 裡的漏洞細節，推導出 risk evaluation。這其實很接近真實的 advisory digestion 工作：你不是只要讀懂內容，而是得把漏洞描述、影響面、受影響產品、技術背景與 mitigation，整理成可行動的風險認識。

CPST（CVSS Problem Solving Task）則更偏向顯式計算，要求模型根據 CVSS 3.1 向量字串推算分數。這不是什麼 glamorous 任務，但很有代表性：它測的是模型遇到正式框架與規則時，到底會不會照標準做，而不是憑語感亂猜。

這兩個 reasoning 任務湊在一起，其實剛好構成一個很重要的訊號：在資安裡，推理不只是自然語言推論，還包含標準、公式、規則與風險摘要這些可操作輸出。

為什麼它特別聚焦 ICS？

有些人看到這篇 benchmark 以 Industrial Control Systems 為主，第一反應可能會覺得場景有點窄；但我反而認為，這是它的優點之一。因為 ICS 安全有幾個特性，剛好非常適合拿來測 LLM 是否可靠：

專業術語密度高，不容易靠一般語感混過去
安全代價高，錯誤建議不能當小失誤處理
既有標準與 advisory 文件成熟，便於設計 grounded benchmark
同時包含弱點、攻擊技術、風險評估、CVSS 等多層知識

換句話說，作者不是隨便挑一個 niche，而是挑了一個很能逼出模型安全可靠性問題的場域。若模型連這裡都不穩，那它在更廣義的 cyber advisory 場景下，多半也不會比較穩。

這篇論文最值得注意的發現

從論文整體脈絡來看，作者得到的結論並不是「LLM 完全沒用」，而是更接近一個現場工程師會接受的答案：模型有局部能力，但離可靠 advisory tool 還有明顯距離。

幾個值得記住的點是：

不同模型在 extraction、understanding、reasoning 間落差很大：代表不能拿單一分數代表整體可用性。
面對新近 CVE 與缺上下文任務時，truthfulness 問題會直接暴露：也就是模型常常不會停手。
即使是能力較強的模型，也未必能穩定跨任務轉移：知道 ATT&CK 不等於會做 advisory reasoning。
RAG 與微調可能改善表現，但不是根本保證：如果評估框架本身不夠嚴格，改善幅度很容易被過度解讀。

這對現在一大堆「讓 LLM 幫你做安全決策」的敘事，其實是一種健康的降溫。SECURE 告訴我們：真正該問的不是模型能不能碰資安，而是它碰到哪一層時，錯誤成本會開始不可接受。

這篇論文和近期 agentic security 論文的關係

如果把 SECURE 放回這兩天 sectools.tw 已經發過的脈絡裡看，它剛好補上一個很基礎的底層問題。最近很多文章都在談 agentic AI 怎麼接工具、怎麼做 SOC、怎麼治理 delegation、怎麼防 runtime 攻擊、怎麼做 explainable detection；但這些更高層的系統設計，其實都默默假設了一件事：底下那個 LLM 至少在讀安全資料、理解漏洞敘述、做風險推理時，不會太離譜。

SECURE 則是在提醒我們：這個假設本身就還沒有穩。你可以把它看成一種底座驗證：如果模型連 cyber advisory 的 extraction / understanding / reasoning 三層都還不夠可信，那後面再疊 agent、workflow、tool use、autonomy，很多時候只是把原本的不可靠放大。

這也是為什麼我覺得這篇雖然不是最新、也不是最花俏，但在現在這個時間點反而很值得補發。因為當大家開始急著談 agentic security 時，回頭問「你憑什麼信它的安全知識真的夠用」這件事，反而變得更必要。

我的看法

我認為 SECURE 的最大貢獻，不在於它是不是終極 benchmark，而在於它把資安 LLM 評估拉回一個更誠實的位置：不是只問模型會不會答，而是問它能不能在專業、高風險、需承認不確定性的環境裡，維持知識上的可信度。

這種問題意識，其實比再多一個華麗 demo 更重要。因為在資安領域，錯得很有自信，比答不出來更危險。SECURE 透過 KCV、VOOD、RERT、CPST 這些設計，把這種風險具體化了。它也提醒我們：安全 AI 的可靠性，不應只建立在能力展示上，而要建立在你知道它何時會失真、何時該閉嘴、何時需要外部知識與人類覆核。

如果後續要把這條線往前推，我反而會期待兩件事。第一，是把 SECURE 這種以 truthfulness 與 knowledge boundary 為核心的設計，往 agentic workflow 延伸，測模型在多步工具使用中是否仍能維持同樣的節制。第二，是把這類 benchmark 從 ICS advisory 再拓展到 CTI、SOC triage、IR decision support、rule authoring 等更直接進入營運的場景。因為真正要上線的，不是會答題的模型，而是在高風險知識工作裡仍然知道自己知道什麼、不知道什麼的系統。

從這個角度看，SECURE 雖然看起來像 benchmark paper，但它真正問的，其實是一個更大的問題：我們要的到底是更會說的資安 AI，還是更值得信任的資安 AI？

SECURE 論文閱讀分析：當資安 LLM 看起來什麼都懂，最危險的往往是它其實不肯承認自己不知道

論文基本資訊

這篇論文想解決什麼問題？

SECURE 的核心設計：不是一個 dataset，而是一組知識能力剖面

六個資料集在測什麼？

一、Extraction：MAET 與 CWET

二、Understanding：KCV 與 VOOD

三、Reasoning：RERT 與 CPST

為什麼它特別聚焦 ICS？

這篇論文最值得注意的發現

這篇論文和近期 agentic security 論文的關係

我的看法

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

SECURE 的核心設計：不是一個 dataset，而是一組知識能力剖面

六個資料集在測什麼？

一、Extraction：MAET 與 CWET

二、Understanding：KCV 與 VOOD

三、Reasoning：RERT 與 CPST

為什麼它特別聚焦 ICS？

這篇論文最值得注意的發現

這篇論文和近期 agentic security 論文的關係

我的看法

發佈留言 取消回覆

You may also like

Spore 論文閱讀分析：很多 agent memory 真正危險的，不是模型記性太好，而是你還把可重建的秘密留在它腦裡

SkillJect 論文閱讀分析：當 Coding Agent 的 Skill 不再只是說明書，而是能被攻擊者反覆調校的高權限控制面

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆