CyberMetric 論文閱讀分析：用 RAG 與人工驗證打造廣義資安知識 benchmark

2026 年 4 月 8 日

論文基本資訊

論文標題：CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
作者：Norbert Tihanyi、Mohamed Amine Ferrag、Ridhi Jain、Tamas Bisztray、Merouane Debbah
年份：2024
來源：arXiv:2402.07688v2
論文連結：https://arxiv.org/abs/2402.07688
主題：Cybersecurity Benchmark、LLM Evaluation、RAG、Human Validation、Multiple-choice QA

如果前面幾篇 sectools.tw 的文章，多半都集中在 CTI、攻擊調查、偵測規則生成、threat attribution，那這篇 CyberMetric 值得補進來的原因，是它往上游退了一步：在你討論 LLM 能不能做 CTI、能不能做 incident response、能不能做偵測工程之前，先得有一個像樣的資安知識 benchmark。

作者的問題意識很直接：今天大家在談 LLM for Security，常常會拿零碎題庫、單一課本、或很小的 closed-book 測驗來比較模型強弱，但這些資料集不是太窄，就是太舊，或缺少人類專家驗證。如果 benchmark 本身不穩，後面的結論就很容易失真。

CyberMetric 的核心貢獻，就是提出一套用 RAG + LLM 生成 + 多輪機器過濾 + 人工驗證 建出來的資安多選題 benchmark，並同時把 人類與 25 個模型 放到同一條基準線上比較。

這篇論文想解決什麼？

論文的兩個研究問題很清楚：

RQ1：在 closed-book 測驗下，機器智慧是否已經在「廣泛資安知識」上超過人類？
RQ2：目前可用的模型裡，誰在跨領域資安知識測驗上最準？

這兩個問題看起來普通，但其實很重要。因為很多 security + AI 論文只測單一子領域，例如 CTI、程式修補、弱點分析、或惡意程式分類；然而資安工作本身往往跨很多面向：network、cloud、cryptography、IAM、compliance、IoT、滲透測試、災難復原。如果模型只在單點任務上強，並不代表它真的具備廣泛的 security literacy。

CyberMetric 到底是什麼？

作者建立了四個規模版本的 benchmark：

CyberMetric-80
CyberMetric-500
CyberMetric-2000
CyberMetric-10000

全部都是 四選一 multiple-choice Q&A。其中 80 與 500 題版本特別適合做高品質驗證，10,000 題版本則用來測大規模分布與模型穩定性。

題目來源不是單一教材，而是從 超過 100,000 頁 的資安資料中萃取，包含：

NIST standards / guidelines
RFC 文件
研究論文
公開書籍
其他資安出版物

這點是這篇論文最有價值的地方之一：它不是做一個偏單一語境的小題庫，而是試圖做出一個跨子領域、跨文體、跨來源的資安知識 benchmark。

覆蓋哪些資安領域？

論文把題目分佈到 9 大領域，核心包括：

Disaster Recovery / BCP
Identity and Access Management
IoT Security
Cryptography
Wireless Security
Network Security
Cloud Security
Penetration Testing
Compliance / Audit

此外作者也特別把 NIST / RFC 類型題目 切出來，讓 benchmark 不只是考概念，也考標準文件的理解能力。

換句話說，CyberMetric 測的不是單一 exploit 細節，而是比較接近「一個資安工作者應該具備的廣義知識面」。

資料集怎麼建？RAG 在這篇論文裡扮演什麼角色？

論文的方法流程可以整理成下面這樣：

資安文件蒐集
  ↓
PDF 文字抽取與清洗
  ↓
文件切塊（每 chunk 約 8000 tokens）
  ↓
GPT-3.5 + RAG 生成多選題
  ↓
Falcon-180B 做語意與文法過濾
  ↓
T5-base 做文法修正
  ↓
GPT-4 / GPT-4o / Mistral 交叉檢查答案合理性
  ↓
人類專家最終審核與刪修
  ↓
形成 CyberMetric benchmark

這裡的 RAG 並不是用來回答題目，而是用來生成 benchmark 題目本身。作者從原始資料中先檢索對應內容，再讓 GPT-3.5 根據該內容產生問題與四個選項，藉此降低純憑空生成的錯題比例。

如果用比較抽象的形式來寫，可以把資料生成階段看成：

c_i = Retrieve(D, q_i^*)
item_i = LLM(c_i)

其中 D 是文件庫，c_i 是被檢索出的上下文，item_i 則是由模型生成的題目、選項與答案。雖然論文不是以新公式為賣點，但它背後的思路其實就是：先用外部知識約束，再用生成模型產題。

題目生成規模有多大？

作者一開始總共生成了 11,000 題，多出來的 10% 是刻意保留的緩衝空間，用來在後處理時刪除品質不佳的題目。後續流程中：

Falcon-180B 移除了 1.7% 有語法或語意問題的題目
人工再移除 2.3% 不合格題目
最終收斂成 10,000 題

這種做法相當務實。作者不是假設「LLM 生成一次就乾淨」，而是把它當成高效率初稿引擎，再透過多輪過濾把資料品質往上拉。

這篇論文最關鍵的地方：人類驗證不是裝飾，而是主體

CyberMetric 最值得注意的一點，是作者沒有把 dataset curation 全丟給模型。論文明確寫到：

人工隨機檢查題目品質
人工檢查題目是否真的屬於 cybersecurity
人工檢查答案是否唯一、是否正確
人工投入總計 超過 200 小時 做最終驗證

這 200 小時不是小數字，代表作者知道 benchmark 最大的風險根本不是「題目不夠多」，而是題目看起來像對的，但其實有多解、過時、引用錯誤，或依賴原文表格／圖號才能回答。

作者實際發現了哪些失敗模式？

論文把錯題來源分得很清楚，至少有四類：

Multiple correct answers：其實不只一個選項是對的
Time-relevant drift：來源文件年代較舊，答案到 2024 已經變了
Source itself is wrong：原始文件本身就有錯
Missing reference context：題目依賴「見圖 1」或「如表 6 所示」之類外部參照

這段非常值得所有做 LLM benchmark 的人記住。因為它說明了一件事：自動生成 benchmark 不只是模型問題，還有文件時效、來源正確性與語境完整性的問題。

資料分布是怎麼安排的？

從論文提供的表格來看，10,000 題大致分布在不同領域，例如：

Penetration Testing / Ethical Hacking：1000 題
Cryptography：1500 題
Network / IoT Security：1000 題
Information Security / Governance：1500 題
Compliance / Disaster Recovery：1500 題
Cloud / Identity Management：1500 題
NIST / RFC：2000 題

這種配置很合理，因為它避免題目過度集中在單一熱門區塊，例如只偏滲透測試或只偏 CTI。從 benchmark 設計觀點來看，這比單一題源更加健康。

模型評估：作者測了多少模型？

作者總共比較了 25 個 state-of-the-art LLMs。論文摘要與實驗段落提到，整體表現最好的模型包含：

GPT-4o
GPT-4-turbo
Mixtral-8x7B-Instruct
Falcon-180B-Chat
GEMINI-pro 1.0

此外，小模型中的代表則包括：

Mistral-7B-Instruct-v0.2
Gemma-1.1-7b-it

但作者也提醒，因為模型輸出具機率性，即使是頂尖模型，不同 run 之間也可能有 3–4 個百分點浮動。這個提醒很實在，因為太多人在 benchmark paper 裡過度解讀小數點後幾位差距。

人類 vs LLM：論文真正最有話題性的結果

除了測模型，作者還找了 30 位人類參與者 做 CyberMetric-80 的 closed-book 測驗，想直接比較「人類資安知識」與「模型資安知識」。

結果很有意思：

頂尖 LLM 在 CyberMetric-80 上的整體正確率 高於人類平均
但高經驗值的人類專家，仍然能超過小模型，例如 Llama-3-8B、Phi-2、Gemma-7b

這怎麼解讀？我認為這不是「AI 已全面超越資安專家」，而比較像：在標準化、廣泛知識型的 closed-book MCQ 場景下，最強的大模型已經具有非常強的覆蓋率；但真正資深的人類專家，在深度判斷與穩定性上仍然有優勢。

這篇論文和 CTIBench / CTIArena 這些 benchmark 有什麼差別？

如果把它放進最近 sectools.tw 追的脈絡，可以這樣看：

CTIBench / CTIArena / AthenaBench：更聚焦在 CTI 或 threat-centric 任務
ExCyTIn-Bench / CTI-REALM：更接近 agentic workflow 與實作任務
CyberMetric：則是比較底層、比較廣域的 cybersecurity knowledge benchmark

所以 CyberMetric 不一定最貼近 CTI analyst 的日常，但它提供了一個很有價值的「地板」：如果模型在廣義資安知識上都站不穩，那後面那些更複雜的 CTI、IR、Detection Engineering 任務自然更難。

方法上的強項

資料規模夠大：10,000 題不是玩具級 benchmark
來源夠廣：不是單一教材，而是跨標準、論文、書籍、RFC
有人工驗證：200+ 小時人審，是這篇論文最硬的部分
有人類對照組：讓結果不只是在模型之間互比

限制與要保留的地方

即便如此，這篇論文還是有幾個要保守看的地方：

題型主要是 MCQ：它測的是知識辨識，不是長鏈推理或實作能力
仍有 closed-book 偏誤：真實資安工作常常是 open-book，需要查資料、比對標準、交叉驗證
資料仍可能隨時間老化：尤其是安全實務、產品生態、市場占有率這類題目
廣域 benchmark 不等於專業 CTI benchmark：它不能直接取代 threat intelligence 專用評測

換句話說，CyberMetric 很有價值，但最好把它理解成廣義資安知識測驗，而不是對實戰能力的完整代理。

重點整理

CyberMetric 提出四個版本的 benchmark：80 / 500 / 2000 / 10000 題。
題目來自 超過 100,000 頁 的資安文件，涵蓋 NIST、RFC、研究論文、公開書籍等。
題目生成流程採用 GPT-3.5 + RAG，再經過 Falcon、T5、GPT-4 / GPT-4o / Mistral 以及人類專家多輪驗證。
人工總驗證時間超過 200 小時，這是資料集可信度的重要來源。
作者辨識出多種 benchmark failure modes，包括 多解、過時、原始來源錯誤、缺失上下文引用。
整體最佳模型包括 GPT-4o、GPT-4-turbo、Mixtral-8x7B-Instruct、Falcon-180B-Chat、GEMINI-pro 1.0。
頂尖 LLM 在 CyberMetric-80 上的平均表現超過人類參與者，但高經驗專家仍優於小模型。

Takeaway

CyberMetric 的真正價值，不只是又做了一個資安題庫，而是示範了：如果你要認真比較 LLM 在 cybersecurity 上的知識能力，benchmark 本身就必須經過 RAG 輔助建題、多模型過濾與大量人工驗證，否則分數再漂亮都可能只是建立在鬆動地基上。

對 sectools.tw 讀者來說，這篇論文很適合當作一個背景座標。它不會直接告訴你哪個模型最會做 CTI 歸因、最會寫 Sigma、最會查 APT，但它提供了一個更基礎的判準：模型在廣泛資安知識上，到底站得有多穩。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CyberMetric 論文閱讀分析：用 RAG 與人工驗證打造廣義資安知識 benchmark

論文基本資訊

這篇論文想解決什麼？

CyberMetric 到底是什麼？

覆蓋哪些資安領域？

資料集怎麼建？RAG 在這篇論文裡扮演什麼角色？

題目生成規模有多大？

這篇論文最關鍵的地方：人類驗證不是裝飾，而是主體

作者實際發現了哪些失敗模式？

資料分布是怎麼安排的？

模型評估：作者測了多少模型？

人類 vs LLM：論文真正最有話題性的結果

這篇論文和 CTIBench / CTIArena 這些 benchmark 有什麼差別？

方法上的強項

限制與要保留的地方

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼？

CyberMetric 到底是什麼？

覆蓋哪些資安領域？

資料集怎麼建？RAG 在這篇論文裡扮演什麼角色？

題目生成規模有多大？

這篇論文最關鍵的地方：人類驗證不是裝飾，而是主體

作者實際發現了哪些失敗模式？

資料分布是怎麼安排的？

模型評估：作者測了多少模型？

人類 vs LLM：論文真正最有話題性的結果

這篇論文和 CTIBench / CTIArena 這些 benchmark 有什麼差別？

方法上的強項

限制與要保留的地方

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

論文閱讀分析：用大型語言模型與威脅情資推進自動化事件回應

SEvenLLM 論文閱讀分析：把 CTI 做成雙語多任務指令資料後，LLM 真的會更像資安分析師嗎？

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆