Adapting LLMs to Emerging Cybersecurity 論文閱讀分析：很多資安 RAG 真正缺的不是更多文件，而是先分清楚哪些訊號該語意找、哪些該硬抓

2026 年 4 月 21 日

論文基本資訊

論文標題：Adapting Large Language Models to Emerging Cybersecurity using Retrieval Augmented Generation
作者：Md Tanvirul Alam、Niloofar Rastogi
來源：arXiv
年份：2025
論文連結：https://arxiv.org/abs/2510.27080
主題：Cyber Threat Intelligence、RAG、Vulnerability Intelligence、Hybrid Retrieval、LLM Evaluation、Temporal Reasoning

這篇 Adapting Large Language Models to Emerging Cybersecurity using RAG 看起來像一篇很樸素的 RAG paper，但它其實補了一個很實際的洞：很多資安 LLM 不是不懂資安，而是它一離開訓練 cutoff、碰到新的 CVE / CWE 與新語境，就立刻開始不穩。

作者真正想處理的，不是「怎麼讓模型知道更多」，而是怎麼讓它在面對新出現的漏洞與弱點時，還能比較可靠地把正確上下文撈回來。這個方向很務實，因為在 CTI / vuln intelligence 場景裡，最麻煩的本來就不是生成，而是知識更新速度永遠比模型更新速度快。

這篇 paper 的核心訊息很簡單：資安 RAG 真正要補的不是「再多塞點文件」，而是把 identifier-driven retrieval 跟 semantic retrieval 接成同一條比較像樣的檢索鏈。

它在解什麼問題？

論文先點出一個大家都知道、但很多系統還是假裝沒看到的現實：LLM 在 cybersecurity 裡最不可靠的時候，往往正是你最需要它可靠的時候——也就是新威脅剛出現、舊知識還沒更新進模型的時候。

如果是一般問答，知識 cutoff 只是答舊一點；但在資安裡，知識 cutoff 可能直接讓你：

把新 CVE 判錯
把新弱點脈絡接錯
用錯 mitigation 或 remediation 方向
在 temporal reasoning 上把舊案例與新案例混在一起

所以作者把問題定義得很清楚：與其重訓模型，不如先讓 retrieval 變得比較懂資安資料的長相。 這裡的重點不是省成本而已，而是因為 security data 本來就高度動態；你每次等 fine-tune，常常已經慢了。

核心方法：dense + sparse + regex，不是單押某一種 retrieval

這篇最值得記的地方，是它沒有把 RAG 當成單一向量搜尋，而是把檢索拆成三層：

Dense retrieval：用 embedding + FAISS 抓語意相近內容
Sparse retrieval：用 BM25 抓精確詞面匹配
Regex boost：如果 query 裡有 CVE ID，就直接對命中的文件加權

這件事聽起來不花俏，但在 vuln / CTI 場景裡其實很關鍵。因為像 CVE-2024-XXXX 這種 identifier，本來就不是什麼該靠語意模糊比對的東西。你如果把 identifier retrieval 跟 semantic similarity 混成同一類問題，最後就很容易撈到「看起來很像」但其實不是那一條的文件。

作者這裡等於很誠實地承認：

語意檢索適合補脈絡
關鍵字檢索適合抓精確條目
而 CVE 這種高度結構化訊號，應該被當成 special-case first-class signal 處理

這比很多「我們用了 advanced RAG」的說法實在得多。

為什麼這個 hybrid retrieval 比一般 baseline RAG 有意義？

論文的一個重要發現是：baseline RAG 不只不一定比較好，還可能比不用 RAG 更差。

在作者的 KCV 實驗裡：

No RAG：59.2%
Baseline RAG：57.6%
Full Hybrid：62.5%
Full Hybrid + Regex：72.7%
人工整理的 preformatted context：82.8%

這組數字很值得看。因為它說明了兩件事：

RAG 不是加了就贏。 如果 retrieval 把噪音也一起餵進來，模型只會更自信地答錯。
真正重要的不是有沒有檢索，而是檢索是不是對資料型態有 sense。 把 BM25 跟 CVE regex 拉進來後，效果才開始明顯往上走。

換句話說，資安 RAG 最大的坑不是 generation hallucination，而是 retrieval hallucination——你先撈錯，再生成得很順，整條鏈就會一起歪掉。

它評了哪些資料？

作者主要用 SECURE benchmark 裡兩組資料：

KCV：偏 CVE 脈絡與 vulnerability 判斷
CWET：偏 CWE 弱點知識與分類推理

在 CWET 上，提升也存在：

No RAG：85.4%
Baseline RAG：86.4%
Full Hybrid：92.2%

這裡有一個很有意思的訊號：在 CWE 類題目上，模型本來就吃過不少既有知識，所以 baseline 已經不差；但 hybrid retrieval 還是能再往上拉，代表 sparse + dense 的搭配不是只在 identifier lookup 上有用，而是對較長、較完整的文件描述也能補到檢索品質。

這篇最有價值的地方：它把「context quality」拉回檯面

我覺得這篇真正最該被記住的，不是 Full Hybrid + Regex 拿到 72.7%，而是作者很清楚示範了：同一個模型，差的常常不是 reasoning ceiling，而是你到底餵了它什麼樣的 context。

論文裡甚至拿了一個錯例出來：明明文件已經抓到正確脈絡，但因為 retrieved passage 本身格式亂、句界不清、還混到容易誤導的詞，模型最後還是答錯。這個案例其實非常資安 RAG：不是沒撈到答案，而是撈回來的證據長得太髒，模型吃不乾淨。

所以這篇表面上在談 hybrid retrieval，實際上在提醒一個更根本的問題：

在 cybersecurity 裡，retrieval quality 不只是 recall / precision 問題，而是證據能不能被模型正確消化的問題。

這也解釋了為什麼人工整理好的 preformatted context 還是最高分——因為它不只檢索正確，還把證據整理成模型比較不會誤讀的形式。

溫度、embedding model、部署取捨

作者也做了幾個實用但不花俏的 ablation。

首先是 temperature。結果很直白：低溫比較好。在 KCV 上，越 deterministic，表現越穩；溫度一高，準確率掉、波動也變大。這其實完全符合 security task 的本質：這不是創意寫作，你要的是 factual precision，不是花樣。

再來是 embedding model。作者比較了幾個 embedding 後發現，大模型雖然最好，但優勢沒有大到壓倒性。例如 mxbai-embed-large-v1 雖然最佳，但比小很多的 MiniLM 類模型只高一點點。這對 production 很重要，因為它代表：

如果你在意 latency / cost / footprint，未必需要上最大 embedding
真正更值得花心力調的，可能是 retrieval 組合邏輯，而不是盲目堆大模型

放到 sectools.tw 的近期主線裡，這篇補的是哪一塊？

最近幾篇如果一路串過來，你會發現有一條很清楚的主線：

CTIArena 在談 heterogeneous knowledge 與 multi-hop reasoning
Advancing Autonomous Incident Response 在談 alert enrichment 與 CTI fusion
SIR-Bench / Multi-Agent IR / In-Context IR 在談 agent 的 investigation 與 replanning
這篇則是在更底層地補：如果 retrieval 沒先對，後面那些推理、規劃與 agent 協作很多時候只是把錯的 context 放大。

所以我會把它看成一篇 retrieval substrate paper。它不是最酷炫的 autonomous system，但它補的是 production 上最常先爛掉的那一層：怎麼把新的 security knowledge 以對的方式送進模型腦袋。

它的限制也很明顯

評測仍偏 benchmark 化：主要還是 KCV / CWET，離真實 SOC / CTI analyst 的多樣 query pattern 有距離。
identifier 偏重 CVE：regex boost 主要針對 CVE；如果未來真的要更像 CTI pipeline，至少還得納入 CWE、CAPEC、ATT&CK、漏洞產品脈絡等。
沒有真正解決 context formatting 問題：它已經看到這個問題，但目前還比較像把問題指出來，還沒完全把 evidence presentation layer 做好。
base model 只測一種：只用 Llama-3-8B-Instruct，還不能直接保證換模型家族後效果等比例成立。

所以它不是終局答案，但它的方向是對的：先把 retrieval 從 generic RAG 拉回 domain-shaped RAG。

我的看法

我其實蠻喜歡這篇，因為它沒有在那邊吹一個萬能 security copilot，而是很老實地處理一個更常見、也更痛的現實：資安知識更新太快，模型腦袋太慢，而你總得想辦法在中間接一層比較不像賭運氣的檢索面。

這篇最值得記住的一句話，如果要我自己總結，會是：

很多 cybersecurity RAG 真正缺的不是更多文件，而是先分清楚：哪些問題該靠語意找，哪些問題該靠 identifier 抓，哪些訊號根本應該被當作硬約束。

也因此，這篇 paper 雖然沒有很 flashy，卻很有 production 味。它提醒我們：在 vuln / CTI 場景裡，讓模型比較可信的第一步，往往不是讓它更會講，而是讓它比較不會先撈錯。

本文由 AI 產生、整理與撰寫；內容僅供研究與技術分析參考。

Adapting LLMs to Emerging Cybersecurity 論文閱讀分析：很多資安 RAG 真正缺的不是更多文件，而是先分清楚哪些訊號該語意找、哪些該硬抓

論文基本資訊

它在解什麼問題？

核心方法：dense + sparse + regex，不是單押某一種 retrieval

為什麼這個 hybrid retrieval 比一般 baseline RAG 有意義？

它評了哪些資料？

這篇最有價值的地方：它把「context quality」拉回檯面

溫度、embedding model、部署取捨

放到 sectools.tw 的近期主線裡，這篇補的是哪一塊？

它的限制也很明顯

我的看法

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

它在解什麼問題？

核心方法：dense + sparse + regex，不是單押某一種 retrieval

為什麼這個 hybrid retrieval 比一般 baseline RAG 有意義？

它評了哪些資料？

這篇最有價值的地方：它把「context quality」拉回檯面

溫度、embedding model、部署取捨

放到 sectools.tw 的近期主線裡，這篇補的是哪一塊？

它的限制也很明顯

我的看法

發佈留言 取消回覆

You may also like

TraceSafe 論文閱讀分析：當 AI Agent 的風險不在最後一句，而是藏在整條工具呼叫軌跡裡

LRCTI 論文閱讀分析：用多步驟檢索與推理驗證 CTI 可信度

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆