Adapting LLMs to Emerging Cybersecurity 論文閱讀分析:很多資安 RAG 真正缺的不是更多文件,而是先分清楚哪些訊號該語意找、哪些該硬抓

論文基本資訊

  • 論文標題:Adapting Large Language Models to Emerging Cybersecurity using Retrieval Augmented Generation
  • 作者:Md Tanvirul Alam、Niloofar Rastogi
  • 來源:arXiv
  • 年份:2025
  • 論文連結:https://arxiv.org/abs/2510.27080
  • 主題:Cyber Threat Intelligence、RAG、Vulnerability Intelligence、Hybrid Retrieval、LLM Evaluation、Temporal Reasoning

這篇 Adapting Large Language Models to Emerging Cybersecurity using RAG 看起來像一篇很樸素的 RAG paper,但它其實補了一個很實際的洞:很多資安 LLM 不是不懂資安,而是它一離開訓練 cutoff、碰到新的 CVE / CWE 與新語境,就立刻開始不穩。

作者真正想處理的,不是「怎麼讓模型知道更多」,而是怎麼讓它在面對新出現的漏洞與弱點時,還能比較可靠地把正確上下文撈回來。這個方向很務實,因為在 CTI / vuln intelligence 場景裡,最麻煩的本來就不是生成,而是知識更新速度永遠比模型更新速度快

這篇 paper 的核心訊息很簡單:資安 RAG 真正要補的不是「再多塞點文件」,而是把 identifier-driven retrieval 跟 semantic retrieval 接成同一條比較像樣的檢索鏈。

它在解什麼問題?

論文先點出一個大家都知道、但很多系統還是假裝沒看到的現實:LLM 在 cybersecurity 裡最不可靠的時候,往往正是你最需要它可靠的時候——也就是新威脅剛出現、舊知識還沒更新進模型的時候。

如果是一般問答,知識 cutoff 只是答舊一點;但在資安裡,知識 cutoff 可能直接讓你:

  • 把新 CVE 判錯
  • 把新弱點脈絡接錯
  • 用錯 mitigation 或 remediation 方向
  • 在 temporal reasoning 上把舊案例與新案例混在一起

所以作者把問題定義得很清楚:與其重訓模型,不如先讓 retrieval 變得比較懂資安資料的長相。 這裡的重點不是省成本而已,而是因為 security data 本來就高度動態;你每次等 fine-tune,常常已經慢了。

核心方法:dense + sparse + regex,不是單押某一種 retrieval

這篇最值得記的地方,是它沒有把 RAG 當成單一向量搜尋,而是把檢索拆成三層:

  • Dense retrieval:用 embedding + FAISS 抓語意相近內容
  • Sparse retrieval:用 BM25 抓精確詞面匹配
  • Regex boost:如果 query 裡有 CVE ID,就直接對命中的文件加權

這件事聽起來不花俏,但在 vuln / CTI 場景裡其實很關鍵。因為像 CVE-2024-XXXX 這種 identifier,本來就不是什麼該靠語意模糊比對的東西。你如果把 identifier retrieval 跟 semantic similarity 混成同一類問題,最後就很容易撈到「看起來很像」但其實不是那一條的文件。

作者這裡等於很誠實地承認:

  • 語意檢索適合補脈絡
  • 關鍵字檢索適合抓精確條目
  • 而 CVE 這種高度結構化訊號,應該被當成 special-case first-class signal 處理

這比很多「我們用了 advanced RAG」的說法實在得多。

為什麼這個 hybrid retrieval 比一般 baseline RAG 有意義?

論文的一個重要發現是:baseline RAG 不只不一定比較好,還可能比不用 RAG 更差。

在作者的 KCV 實驗裡:

  • No RAG:59.2%
  • Baseline RAG:57.6%
  • Full Hybrid:62.5%
  • Full Hybrid + Regex:72.7%
  • 人工整理的 preformatted context:82.8%

這組數字很值得看。因為它說明了兩件事:

  1. RAG 不是加了就贏。 如果 retrieval 把噪音也一起餵進來,模型只會更自信地答錯。
  2. 真正重要的不是有沒有檢索,而是檢索是不是對資料型態有 sense。 把 BM25 跟 CVE regex 拉進來後,效果才開始明顯往上走。

換句話說,資安 RAG 最大的坑不是 generation hallucination,而是 retrieval hallucination——你先撈錯,再生成得很順,整條鏈就會一起歪掉。

它評了哪些資料?

作者主要用 SECURE benchmark 裡兩組資料:

  • KCV:偏 CVE 脈絡與 vulnerability 判斷
  • CWET:偏 CWE 弱點知識與分類推理

在 CWET 上,提升也存在:

  • No RAG:85.4%
  • Baseline RAG:86.4%
  • Full Hybrid:92.2%

這裡有一個很有意思的訊號:在 CWE 類題目上,模型本來就吃過不少既有知識,所以 baseline 已經不差;但 hybrid retrieval 還是能再往上拉,代表 sparse + dense 的搭配不是只在 identifier lookup 上有用,而是對較長、較完整的文件描述也能補到檢索品質。

這篇最有價值的地方:它把「context quality」拉回檯面

我覺得這篇真正最該被記住的,不是 Full Hybrid + Regex 拿到 72.7%,而是作者很清楚示範了:同一個模型,差的常常不是 reasoning ceiling,而是你到底餵了它什麼樣的 context。

論文裡甚至拿了一個錯例出來:明明文件已經抓到正確脈絡,但因為 retrieved passage 本身格式亂、句界不清、還混到容易誤導的詞,模型最後還是答錯。這個案例其實非常資安 RAG:不是沒撈到答案,而是撈回來的證據長得太髒,模型吃不乾淨。

所以這篇表面上在談 hybrid retrieval,實際上在提醒一個更根本的問題:

在 cybersecurity 裡,retrieval quality 不只是 recall / precision 問題,而是證據能不能被模型正確消化的問題。

這也解釋了為什麼人工整理好的 preformatted context 還是最高分——因為它不只檢索正確,還把證據整理成模型比較不會誤讀的形式。

溫度、embedding model、部署取捨

作者也做了幾個實用但不花俏的 ablation。

首先是 temperature。結果很直白:低溫比較好。在 KCV 上,越 deterministic,表現越穩;溫度一高,準確率掉、波動也變大。這其實完全符合 security task 的本質:這不是創意寫作,你要的是 factual precision,不是花樣。

再來是 embedding model。作者比較了幾個 embedding 後發現,大模型雖然最好,但優勢沒有大到壓倒性。例如 mxbai-embed-large-v1 雖然最佳,但比小很多的 MiniLM 類模型只高一點點。這對 production 很重要,因為它代表:

  • 如果你在意 latency / cost / footprint,未必需要上最大 embedding
  • 真正更值得花心力調的,可能是 retrieval 組合邏輯,而不是盲目堆大模型

放到 sectools.tw 的近期主線裡,這篇補的是哪一塊?

最近幾篇如果一路串過來,你會發現有一條很清楚的主線:

  • CTIArena 在談 heterogeneous knowledge 與 multi-hop reasoning
  • Advancing Autonomous Incident Response 在談 alert enrichment 與 CTI fusion
  • SIR-Bench / Multi-Agent IR / In-Context IR 在談 agent 的 investigation 與 replanning
  • 這篇 則是在更底層地補:如果 retrieval 沒先對,後面那些推理、規劃與 agent 協作很多時候只是把錯的 context 放大。

所以我會把它看成一篇 retrieval substrate paper。它不是最酷炫的 autonomous system,但它補的是 production 上最常先爛掉的那一層:怎麼把新的 security knowledge 以對的方式送進模型腦袋。

它的限制也很明顯

  • 評測仍偏 benchmark 化:主要還是 KCV / CWET,離真實 SOC / CTI analyst 的多樣 query pattern 有距離。
  • identifier 偏重 CVE:regex boost 主要針對 CVE;如果未來真的要更像 CTI pipeline,至少還得納入 CWE、CAPEC、ATT&CK、漏洞產品脈絡等。
  • 沒有真正解決 context formatting 問題:它已經看到這個問題,但目前還比較像把問題指出來,還沒完全把 evidence presentation layer 做好。
  • base model 只測一種:只用 Llama-3-8B-Instruct,還不能直接保證換模型家族後效果等比例成立。

所以它不是終局答案,但它的方向是對的:先把 retrieval 從 generic RAG 拉回 domain-shaped RAG。

我的看法

我其實蠻喜歡這篇,因為它沒有在那邊吹一個萬能 security copilot,而是很老實地處理一個更常見、也更痛的現實:資安知識更新太快,模型腦袋太慢,而你總得想辦法在中間接一層比較不像賭運氣的檢索面。

這篇最值得記住的一句話,如果要我自己總結,會是:

很多 cybersecurity RAG 真正缺的不是更多文件,而是先分清楚:哪些問題該靠語意找,哪些問題該靠 identifier 抓,哪些訊號根本應該被當作硬約束。

也因此,這篇 paper 雖然沒有很 flashy,卻很有 production 味。它提醒我們:在 vuln / CTI 場景裡,讓模型比較可信的第一步,往往不是讓它更會講,而是讓它比較不會先撈錯。


本文由 AI 產生、整理與撰寫;內容僅供研究與技術分析參考。

You may also like