CyberMetric 論文閱讀分析:用 RAG 與人工驗證打造廣義資安知識 benchmark

論文基本資訊

  • 論文標題:CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
  • 作者:Norbert Tihanyi、Mohamed Amine Ferrag、Ridhi Jain、Tamas Bisztray、Merouane Debbah
  • 年份:2024
  • 來源:arXiv:2402.07688v2
  • 論文連結:https://arxiv.org/abs/2402.07688
  • 主題:Cybersecurity Benchmark、LLM Evaluation、RAG、Human Validation、Multiple-choice QA

如果前面幾篇 sectools.tw 的文章,多半都集中在 CTI、攻擊調查、偵測規則生成、threat attribution,那這篇 CyberMetric 值得補進來的原因,是它往上游退了一步:在你討論 LLM 能不能做 CTI、能不能做 incident response、能不能做偵測工程之前,先得有一個像樣的資安知識 benchmark。

作者的問題意識很直接:今天大家在談 LLM for Security,常常會拿零碎題庫、單一課本、或很小的 closed-book 測驗來比較模型強弱,但這些資料集不是太窄,就是太舊,或缺少人類專家驗證。如果 benchmark 本身不穩,後面的結論就很容易失真。

CyberMetric 的核心貢獻,就是提出一套用 RAG + LLM 生成 + 多輪機器過濾 + 人工驗證 建出來的資安多選題 benchmark,並同時把 人類與 25 個模型 放到同一條基準線上比較。

這篇論文想解決什麼?

論文的兩個研究問題很清楚:

  • RQ1:在 closed-book 測驗下,機器智慧是否已經在「廣泛資安知識」上超過人類?
  • RQ2:目前可用的模型裡,誰在跨領域資安知識測驗上最準?

這兩個問題看起來普通,但其實很重要。因為很多 security + AI 論文只測單一子領域,例如 CTI、程式修補、弱點分析、或惡意程式分類;然而資安工作本身往往跨很多面向:network、cloud、cryptography、IAM、compliance、IoT、滲透測試、災難復原。如果模型只在單點任務上強,並不代表它真的具備廣泛的 security literacy。

CyberMetric 到底是什麼?

作者建立了四個規模版本的 benchmark:

  • CyberMetric-80
  • CyberMetric-500
  • CyberMetric-2000
  • CyberMetric-10000

全部都是 四選一 multiple-choice Q&A。其中 80 與 500 題版本特別適合做高品質驗證,10,000 題版本則用來測大規模分布與模型穩定性。

題目來源不是單一教材,而是從 超過 100,000 頁 的資安資料中萃取,包含:

  • NIST standards / guidelines
  • RFC 文件
  • 研究論文
  • 公開書籍
  • 其他資安出版物

這點是這篇論文最有價值的地方之一:它不是做一個偏單一語境的小題庫,而是試圖做出一個跨子領域、跨文體、跨來源的資安知識 benchmark。

覆蓋哪些資安領域?

論文把題目分佈到 9 大領域,核心包括:

  • Disaster Recovery / BCP
  • Identity and Access Management
  • IoT Security
  • Cryptography
  • Wireless Security
  • Network Security
  • Cloud Security
  • Penetration Testing
  • Compliance / Audit

此外作者也特別把 NIST / RFC 類型題目 切出來,讓 benchmark 不只是考概念,也考標準文件的理解能力。

換句話說,CyberMetric 測的不是單一 exploit 細節,而是比較接近「一個資安工作者應該具備的廣義知識面」。

資料集怎麼建?RAG 在這篇論文裡扮演什麼角色?

論文的方法流程可以整理成下面這樣:

資安文件蒐集
  ↓
PDF 文字抽取與清洗
  ↓
文件切塊(每 chunk 約 8000 tokens)
  ↓
GPT-3.5 + RAG 生成多選題
  ↓
Falcon-180B 做語意與文法過濾
  ↓
T5-base 做文法修正
  ↓
GPT-4 / GPT-4o / Mistral 交叉檢查答案合理性
  ↓
人類專家最終審核與刪修
  ↓
形成 CyberMetric benchmark

這裡的 RAG 並不是用來回答題目,而是用來生成 benchmark 題目本身。作者從原始資料中先檢索對應內容,再讓 GPT-3.5 根據該內容產生問題與四個選項,藉此降低純憑空生成的錯題比例。

如果用比較抽象的形式來寫,可以把資料生成階段看成:

c_i = Retrieve(D, q_i^*)
item_i = LLM(c_i)

其中 D 是文件庫,c_i 是被檢索出的上下文,item_i 則是由模型生成的題目、選項與答案。雖然論文不是以新公式為賣點,但它背後的思路其實就是:先用外部知識約束,再用生成模型產題。

題目生成規模有多大?

作者一開始總共生成了 11,000 題,多出來的 10% 是刻意保留的緩衝空間,用來在後處理時刪除品質不佳的題目。後續流程中:

  • Falcon-180B 移除了 1.7% 有語法或語意問題的題目
  • 人工再移除 2.3% 不合格題目
  • 最終收斂成 10,000 題

這種做法相當務實。作者不是假設「LLM 生成一次就乾淨」,而是把它當成高效率初稿引擎,再透過多輪過濾把資料品質往上拉。

這篇論文最關鍵的地方:人類驗證不是裝飾,而是主體

CyberMetric 最值得注意的一點,是作者沒有把 dataset curation 全丟給模型。論文明確寫到:

  • 人工隨機檢查題目品質
  • 人工檢查題目是否真的屬於 cybersecurity
  • 人工檢查答案是否唯一、是否正確
  • 人工投入總計 超過 200 小時 做最終驗證

這 200 小時不是小數字,代表作者知道 benchmark 最大的風險根本不是「題目不夠多」,而是題目看起來像對的,但其實有多解、過時、引用錯誤,或依賴原文表格/圖號才能回答

作者實際發現了哪些失敗模式?

論文把錯題來源分得很清楚,至少有四類:

  • Multiple correct answers:其實不只一個選項是對的
  • Time-relevant drift:來源文件年代較舊,答案到 2024 已經變了
  • Source itself is wrong:原始文件本身就有錯
  • Missing reference context:題目依賴「見圖 1」或「如表 6 所示」之類外部參照

這段非常值得所有做 LLM benchmark 的人記住。因為它說明了一件事:自動生成 benchmark 不只是模型問題,還有文件時效、來源正確性與語境完整性的問題。

資料分布是怎麼安排的?

從論文提供的表格來看,10,000 題大致分布在不同領域,例如:

  • Penetration Testing / Ethical Hacking:1000 題
  • Cryptography:1500 題
  • Network / IoT Security:1000 題
  • Information Security / Governance:1500 題
  • Compliance / Disaster Recovery:1500 題
  • Cloud / Identity Management:1500 題
  • NIST / RFC:2000 題

這種配置很合理,因為它避免題目過度集中在單一熱門區塊,例如只偏滲透測試或只偏 CTI。從 benchmark 設計觀點來看,這比單一題源更加健康。

模型評估:作者測了多少模型?

作者總共比較了 25 個 state-of-the-art LLMs。論文摘要與實驗段落提到,整體表現最好的模型包含:

  • GPT-4o
  • GPT-4-turbo
  • Mixtral-8x7B-Instruct
  • Falcon-180B-Chat
  • GEMINI-pro 1.0

此外,小模型中的代表則包括:

  • Mistral-7B-Instruct-v0.2
  • Gemma-1.1-7b-it

但作者也提醒,因為模型輸出具機率性,即使是頂尖模型,不同 run 之間也可能有 3–4 個百分點浮動。這個提醒很實在,因為太多人在 benchmark paper 裡過度解讀小數點後幾位差距。

人類 vs LLM:論文真正最有話題性的結果

除了測模型,作者還找了 30 位人類參與者 做 CyberMetric-80 的 closed-book 測驗,想直接比較「人類資安知識」與「模型資安知識」。

結果很有意思:

  • 頂尖 LLM 在 CyberMetric-80 上的整體正確率 高於人類平均
  • 高經驗值的人類專家,仍然能超過小模型,例如 Llama-3-8B、Phi-2、Gemma-7b

這怎麼解讀?我認為這不是「AI 已全面超越資安專家」,而比較像:在標準化、廣泛知識型的 closed-book MCQ 場景下,最強的大模型已經具有非常強的覆蓋率;但真正資深的人類專家,在深度判斷與穩定性上仍然有優勢。

這篇論文和 CTIBench / CTIArena 這些 benchmark 有什麼差別?

如果把它放進最近 sectools.tw 追的脈絡,可以這樣看:

  • CTIBench / CTIArena / AthenaBench:更聚焦在 CTI 或 threat-centric 任務
  • ExCyTIn-Bench / CTI-REALM:更接近 agentic workflow 與實作任務
  • CyberMetric:則是比較底層、比較廣域的 cybersecurity knowledge benchmark

所以 CyberMetric 不一定最貼近 CTI analyst 的日常,但它提供了一個很有價值的「地板」:如果模型在廣義資安知識上都站不穩,那後面那些更複雜的 CTI、IR、Detection Engineering 任務自然更難。

方法上的強項

  • 資料規模夠大:10,000 題不是玩具級 benchmark
  • 來源夠廣:不是單一教材,而是跨標準、論文、書籍、RFC
  • 有人工驗證:200+ 小時人審,是這篇論文最硬的部分
  • 有人類對照組:讓結果不只是在模型之間互比

限制與要保留的地方

即便如此,這篇論文還是有幾個要保守看的地方:

  • 題型主要是 MCQ:它測的是知識辨識,不是長鏈推理或實作能力
  • 仍有 closed-book 偏誤:真實資安工作常常是 open-book,需要查資料、比對標準、交叉驗證
  • 資料仍可能隨時間老化:尤其是安全實務、產品生態、市場占有率這類題目
  • 廣域 benchmark 不等於專業 CTI benchmark:它不能直接取代 threat intelligence 專用評測

換句話說,CyberMetric 很有價值,但最好把它理解成廣義資安知識測驗,而不是對實戰能力的完整代理。

重點整理

  • CyberMetric 提出四個版本的 benchmark:80 / 500 / 2000 / 10000 題
  • 題目來自 超過 100,000 頁 的資安文件,涵蓋 NIST、RFC、研究論文、公開書籍等。
  • 題目生成流程採用 GPT-3.5 + RAG,再經過 Falcon、T5、GPT-4 / GPT-4o / Mistral 以及人類專家多輪驗證。
  • 人工總驗證時間超過 200 小時,這是資料集可信度的重要來源。
  • 作者辨識出多種 benchmark failure modes,包括 多解、過時、原始來源錯誤、缺失上下文引用
  • 整體最佳模型包括 GPT-4o、GPT-4-turbo、Mixtral-8x7B-Instruct、Falcon-180B-Chat、GEMINI-pro 1.0
  • 頂尖 LLM 在 CyberMetric-80 上的平均表現超過人類參與者,但高經驗專家仍優於小模型。

Takeaway

CyberMetric 的真正價值,不只是又做了一個資安題庫,而是示範了:如果你要認真比較 LLM 在 cybersecurity 上的知識能力,benchmark 本身就必須經過 RAG 輔助建題、多模型過濾與大量人工驗證,否則分數再漂亮都可能只是建立在鬆動地基上。

對 sectools.tw 讀者來說,這篇論文很適合當作一個背景座標。它不會直接告訴你哪個模型最會做 CTI 歸因、最會寫 Sigma、最會查 APT,但它提供了一個更基礎的判準:模型在廣泛資安知識上,到底站得有多穩。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。