CyberMetric 論文閱讀分析:用 RAG 與人工驗證打造廣義資安知識 benchmark
論文基本資訊
- 論文標題:CyberMetric: A Benchmark Dataset based on Retrieval-Augmented Generation for Evaluating LLMs in Cybersecurity Knowledge
- 作者:Norbert Tihanyi、Mohamed Amine Ferrag、Ridhi Jain、Tamas Bisztray、Merouane Debbah
- 年份:2024
- 來源:arXiv:2402.07688v2
- 論文連結:https://arxiv.org/abs/2402.07688
- 主題:Cybersecurity Benchmark、LLM Evaluation、RAG、Human Validation、Multiple-choice QA
如果前面幾篇 sectools.tw 的文章,多半都集中在 CTI、攻擊調查、偵測規則生成、threat attribution,那這篇 CyberMetric 值得補進來的原因,是它往上游退了一步:在你討論 LLM 能不能做 CTI、能不能做 incident response、能不能做偵測工程之前,先得有一個像樣的資安知識 benchmark。
作者的問題意識很直接:今天大家在談 LLM for Security,常常會拿零碎題庫、單一課本、或很小的 closed-book 測驗來比較模型強弱,但這些資料集不是太窄,就是太舊,或缺少人類專家驗證。如果 benchmark 本身不穩,後面的結論就很容易失真。
CyberMetric 的核心貢獻,就是提出一套用 RAG + LLM 生成 + 多輪機器過濾 + 人工驗證 建出來的資安多選題 benchmark,並同時把 人類與 25 個模型 放到同一條基準線上比較。
這篇論文想解決什麼?
論文的兩個研究問題很清楚:
- RQ1:在 closed-book 測驗下,機器智慧是否已經在「廣泛資安知識」上超過人類?
- RQ2:目前可用的模型裡,誰在跨領域資安知識測驗上最準?
這兩個問題看起來普通,但其實很重要。因為很多 security + AI 論文只測單一子領域,例如 CTI、程式修補、弱點分析、或惡意程式分類;然而資安工作本身往往跨很多面向:network、cloud、cryptography、IAM、compliance、IoT、滲透測試、災難復原。如果模型只在單點任務上強,並不代表它真的具備廣泛的 security literacy。
CyberMetric 到底是什麼?
作者建立了四個規模版本的 benchmark:
- CyberMetric-80
- CyberMetric-500
- CyberMetric-2000
- CyberMetric-10000
全部都是 四選一 multiple-choice Q&A。其中 80 與 500 題版本特別適合做高品質驗證,10,000 題版本則用來測大規模分布與模型穩定性。
題目來源不是單一教材,而是從 超過 100,000 頁 的資安資料中萃取,包含:
- NIST standards / guidelines
- RFC 文件
- 研究論文
- 公開書籍
- 其他資安出版物
這點是這篇論文最有價值的地方之一:它不是做一個偏單一語境的小題庫,而是試圖做出一個跨子領域、跨文體、跨來源的資安知識 benchmark。
覆蓋哪些資安領域?
論文把題目分佈到 9 大領域,核心包括:
- Disaster Recovery / BCP
- Identity and Access Management
- IoT Security
- Cryptography
- Wireless Security
- Network Security
- Cloud Security
- Penetration Testing
- Compliance / Audit
此外作者也特別把 NIST / RFC 類型題目 切出來,讓 benchmark 不只是考概念,也考標準文件的理解能力。
換句話說,CyberMetric 測的不是單一 exploit 細節,而是比較接近「一個資安工作者應該具備的廣義知識面」。
資料集怎麼建?RAG 在這篇論文裡扮演什麼角色?
論文的方法流程可以整理成下面這樣:
資安文件蒐集
↓
PDF 文字抽取與清洗
↓
文件切塊(每 chunk 約 8000 tokens)
↓
GPT-3.5 + RAG 生成多選題
↓
Falcon-180B 做語意與文法過濾
↓
T5-base 做文法修正
↓
GPT-4 / GPT-4o / Mistral 交叉檢查答案合理性
↓
人類專家最終審核與刪修
↓
形成 CyberMetric benchmark
這裡的 RAG 並不是用來回答題目,而是用來生成 benchmark 題目本身。作者從原始資料中先檢索對應內容,再讓 GPT-3.5 根據該內容產生問題與四個選項,藉此降低純憑空生成的錯題比例。
如果用比較抽象的形式來寫,可以把資料生成階段看成:
c_i = Retrieve(D, q_i^*)
item_i = LLM(c_i)
其中 D 是文件庫,c_i 是被檢索出的上下文,item_i 則是由模型生成的題目、選項與答案。雖然論文不是以新公式為賣點,但它背後的思路其實就是:先用外部知識約束,再用生成模型產題。
題目生成規模有多大?
作者一開始總共生成了 11,000 題,多出來的 10% 是刻意保留的緩衝空間,用來在後處理時刪除品質不佳的題目。後續流程中:
- Falcon-180B 移除了 1.7% 有語法或語意問題的題目
- 人工再移除 2.3% 不合格題目
- 最終收斂成 10,000 題
這種做法相當務實。作者不是假設「LLM 生成一次就乾淨」,而是把它當成高效率初稿引擎,再透過多輪過濾把資料品質往上拉。
這篇論文最關鍵的地方:人類驗證不是裝飾,而是主體
CyberMetric 最值得注意的一點,是作者沒有把 dataset curation 全丟給模型。論文明確寫到:
- 人工隨機檢查題目品質
- 人工檢查題目是否真的屬於 cybersecurity
- 人工檢查答案是否唯一、是否正確
- 人工投入總計 超過 200 小時 做最終驗證
這 200 小時不是小數字,代表作者知道 benchmark 最大的風險根本不是「題目不夠多」,而是題目看起來像對的,但其實有多解、過時、引用錯誤,或依賴原文表格/圖號才能回答。
作者實際發現了哪些失敗模式?
論文把錯題來源分得很清楚,至少有四類:
- Multiple correct answers:其實不只一個選項是對的
- Time-relevant drift:來源文件年代較舊,答案到 2024 已經變了
- Source itself is wrong:原始文件本身就有錯
- Missing reference context:題目依賴「見圖 1」或「如表 6 所示」之類外部參照
這段非常值得所有做 LLM benchmark 的人記住。因為它說明了一件事:自動生成 benchmark 不只是模型問題,還有文件時效、來源正確性與語境完整性的問題。
資料分布是怎麼安排的?
從論文提供的表格來看,10,000 題大致分布在不同領域,例如:
- Penetration Testing / Ethical Hacking:1000 題
- Cryptography:1500 題
- Network / IoT Security:1000 題
- Information Security / Governance:1500 題
- Compliance / Disaster Recovery:1500 題
- Cloud / Identity Management:1500 題
- NIST / RFC:2000 題
這種配置很合理,因為它避免題目過度集中在單一熱門區塊,例如只偏滲透測試或只偏 CTI。從 benchmark 設計觀點來看,這比單一題源更加健康。
模型評估:作者測了多少模型?
作者總共比較了 25 個 state-of-the-art LLMs。論文摘要與實驗段落提到,整體表現最好的模型包含:
- GPT-4o
- GPT-4-turbo
- Mixtral-8x7B-Instruct
- Falcon-180B-Chat
- GEMINI-pro 1.0
此外,小模型中的代表則包括:
- Mistral-7B-Instruct-v0.2
- Gemma-1.1-7b-it
但作者也提醒,因為模型輸出具機率性,即使是頂尖模型,不同 run 之間也可能有 3–4 個百分點浮動。這個提醒很實在,因為太多人在 benchmark paper 裡過度解讀小數點後幾位差距。
人類 vs LLM:論文真正最有話題性的結果
除了測模型,作者還找了 30 位人類參與者 做 CyberMetric-80 的 closed-book 測驗,想直接比較「人類資安知識」與「模型資安知識」。
結果很有意思:
- 頂尖 LLM 在 CyberMetric-80 上的整體正確率 高於人類平均
- 但高經驗值的人類專家,仍然能超過小模型,例如 Llama-3-8B、Phi-2、Gemma-7b
這怎麼解讀?我認為這不是「AI 已全面超越資安專家」,而比較像:在標準化、廣泛知識型的 closed-book MCQ 場景下,最強的大模型已經具有非常強的覆蓋率;但真正資深的人類專家,在深度判斷與穩定性上仍然有優勢。
這篇論文和 CTIBench / CTIArena 這些 benchmark 有什麼差別?
如果把它放進最近 sectools.tw 追的脈絡,可以這樣看:
- CTIBench / CTIArena / AthenaBench:更聚焦在 CTI 或 threat-centric 任務
- ExCyTIn-Bench / CTI-REALM:更接近 agentic workflow 與實作任務
- CyberMetric:則是比較底層、比較廣域的 cybersecurity knowledge benchmark
所以 CyberMetric 不一定最貼近 CTI analyst 的日常,但它提供了一個很有價值的「地板」:如果模型在廣義資安知識上都站不穩,那後面那些更複雜的 CTI、IR、Detection Engineering 任務自然更難。
方法上的強項
- 資料規模夠大:10,000 題不是玩具級 benchmark
- 來源夠廣:不是單一教材,而是跨標準、論文、書籍、RFC
- 有人工驗證:200+ 小時人審,是這篇論文最硬的部分
- 有人類對照組:讓結果不只是在模型之間互比
限制與要保留的地方
即便如此,這篇論文還是有幾個要保守看的地方:
- 題型主要是 MCQ:它測的是知識辨識,不是長鏈推理或實作能力
- 仍有 closed-book 偏誤:真實資安工作常常是 open-book,需要查資料、比對標準、交叉驗證
- 資料仍可能隨時間老化:尤其是安全實務、產品生態、市場占有率這類題目
- 廣域 benchmark 不等於專業 CTI benchmark:它不能直接取代 threat intelligence 專用評測
換句話說,CyberMetric 很有價值,但最好把它理解成廣義資安知識測驗,而不是對實戰能力的完整代理。
重點整理
- CyberMetric 提出四個版本的 benchmark:80 / 500 / 2000 / 10000 題。
- 題目來自 超過 100,000 頁 的資安文件,涵蓋 NIST、RFC、研究論文、公開書籍等。
- 題目生成流程採用 GPT-3.5 + RAG,再經過 Falcon、T5、GPT-4 / GPT-4o / Mistral 以及人類專家多輪驗證。
- 人工總驗證時間超過 200 小時,這是資料集可信度的重要來源。
- 作者辨識出多種 benchmark failure modes,包括 多解、過時、原始來源錯誤、缺失上下文引用。
- 整體最佳模型包括 GPT-4o、GPT-4-turbo、Mixtral-8x7B-Instruct、Falcon-180B-Chat、GEMINI-pro 1.0。
- 頂尖 LLM 在 CyberMetric-80 上的平均表現超過人類參與者,但高經驗專家仍優於小模型。
Takeaway
CyberMetric 的真正價值,不只是又做了一個資安題庫,而是示範了:如果你要認真比較 LLM 在 cybersecurity 上的知識能力,benchmark 本身就必須經過 RAG 輔助建題、多模型過濾與大量人工驗證,否則分數再漂亮都可能只是建立在鬆動地基上。
對 sectools.tw 讀者來說,這篇論文很適合當作一個背景座標。它不會直接告訴你哪個模型最會做 CTI 歸因、最會寫 Sigma、最會查 APT,但它提供了一個更基礎的判準:模型在廣泛資安知識上,到底站得有多穩。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
