Minerva 論文閱讀分析:當 CTI LLM 真正要交付可用輸出時,靠背答案可能已經不夠了
本文由 AI 產生、整理與撰寫。
論文基本資訊
- 論文標題:Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs
- 作者:Md Tanvirul Alam、Aritran Piplai、Ionut Cardei、Nidhi Rastogi、Peter J Worth
- 年份:2026
- 來源:arXiv:2602.00513
- 論文連結:https://arxiv.org/abs/2602.00513
- 主題:CTI、LLM、Reinforcement Learning、Verifiable Rewards、Structured Output、STIX、標準化威脅情報
如果最近一批 CTI + LLM 論文,大多還停在「怎麼抽得更準」「怎麼用 benchmark 證明模型比較懂」這條線,那 Minerva 值得看的地方,在於它把問題再往訓練方法本身往前推了一步:當 CTI 任務天然就帶有標準、schema、identifier 與可驗證結構時,我們是不是還要一直靠 supervised fine-tuning(SFT)硬背答案?還是其實可以把這些結構直接拿來做 reward,讓模型自己學會產出比較可靠的 CTI 輸出?
這篇論文的切點很對。因為 CTI 其實不是一個完全開放、無法驗證的自然語言生成場景。相反地,很多真正在實務裡重要的輸出,本來就有明確的驗證條件:
- 是不是對到正確的 canonical identifier
- 是不是符合 STIX / 結構化 schema
- 欄位之間是否一致
- 抽出的 relationship 能不能被 deterministic 規則驗證
也就是說,CTI 不是沒有 reward signal,而是以前常常沒把這些 reward signal 當成訓練資產。 Minerva 的核心價值,就在於它把這件事正式講清楚:如果社群標準本身已經提供了可以驗證的正確性邊界,那 RL with Verifiable Rewards(RLVR)在 CTI 上就不只是理論上可行,而是很可能比單純 SFT 更對味。
這篇論文想解決什麼問題?
作者點出的痛點非常實際:LLM 雖然已經開始被拿來做 CTI 自動化,但在產出結構化、可落地、可自動化接續使用的輸出時,仍然很脆弱。很多模型看起來會講 threat report、會做摘要、甚至能大致猜到 technique,但一旦要求它交出比較嚴格的 structured CTI output,就很容易出現:
- identifier 對錯邊
- 欄位格式不穩
- schema 不一致
- 表面看起來合理、實際卻無法被下游系統接住
這也是 CTI 自動化最麻煩的地方之一。真正的瓶頸常常不是模型能不能「大概理解」,而是它能不能把理解交成標準系統吃得下的東西。
過去很多做法主要依賴 SFT:拿人工或半人工標註好的資料,讓模型去模仿輸出格式。問題是,SFT 對這種任務有個很明顯的限制:它教模型模仿答案,但不一定真的教會模型什麼叫做可驗證地答對。 當輸出空間很大、標準又帶有結構約束時,光靠 imitation 往往不夠。
Minerva 因此想處理的是:能不能把 CTI 任務中那些本來就存在的 deterministic verification 機制,直接變成訓練 reward,讓模型在「可驗證正確」這件事上被優化,而不只是被要求像答案?
Minerva 的關鍵觀念:CTI 標準不是束縛,而是 reward engine
我認為這篇 paper 最值得記住的一句話,不是它用了 RL,而是它看見了一件很多人其實知道、卻沒有真的拿來設計訓練流程的事:CTI 社群那些看起來麻煩的標準、schema 與 canonical resources,剛好就是最適合做 verifiable reward 的基礎設施。
作者提出的是一個 unified dataset + training pipeline,把多個 CTI 子任務放進同一條訓練路線,並為每一類任務配上對應的 verifier。這種設計很重要,因為它代表 Minerva 不是只想解一個單點 benchmark,而是想處理一整類 CTI structured-output problem:
- 有些任務要驗 identifier prediction 是否正確
- 有些任務要驗 structured output 是否符合 task-specific 規格
- 有些任務要同時看內容與格式是否能被機器驗證
這讓 RL 的 reward 不再依賴模糊的人類偏好分數,而是直接依賴 task-specific verifiers。對 CTI 來說,這是一個很漂亮的方向,因為這個領域本來就比一般 open-ended generation 更接近「可形式化約束的知識工程」。
為什麼 RLVR 特別適合 CTI?
因為 CTI 的很多工作,本質上不是「寫得像不像分析師」,而是「交不交得出可用的標準化知識物件」。
像 threat report extraction、technique mapping、identifier normalization、entity / relation structuring 這些任務,最後的價值其實都來自一件事:你的輸出能不能進入自動化流程。 如果不能,那就還是停在 analyst-facing prose,而不是 machine-ready intelligence。
這也是 Minerva 和很多純 benchmark paper 很不一樣的地方。它不是只在比哪個模型分數高,而是把問題拉回更根本的一層:我們到底要把模型訓練成「比較會答題」,還是訓練成「比較會交付可驗證 CTI 物件」?
作者的答案很明確:後者更重要,而 RLVR 正好更貼近後者。
作者還補了一個很實際的洞:reward sparsity
只要做過 RL,就會知道一個老問題:reward 就算設計得再漂亮,若大部分 rollout 都拿不到像樣回饋,訓練還是很容易卡住。 CTI 這種結構化任務尤其如此,因為 verifier 通常很嚴,錯一個 identifier、漏一個欄位、格式歪掉,就可能整筆 reward 直接掉下去。
作者因此額外提出一個很務實的補強:lightweight self-training mechanism。它的精神不是把 RL 換回傳統 pseudo-labeling,而是:
- 先讓模型在 rollout 中產生更多候選軌跡
- 用 verifier 找出其中真正過關的 trajectories
- 再把這些 verified trajectories 蒸餾回模型
這個設計很聰明,因為它等於在 reward 太稀疏時,替模型補一層「已通過驗證的學習樣本回灌」。換句話說,Minerva 不只是在說「RL 可以用」,它還處理了「RL 在這裡為什麼不容易直接用」這個更麻煩的現實問題。
這也讓整篇論文比單純喊 RL-for-CTI 更成熟一些。它不是只指出方向,而是連訓練時最容易卡死的地方都提前處理了。
這篇論文最值得 sectools.tw 讀者注意的,不只是分數提升,而是訓練哲學的轉向
摘要裡最關鍵的結果,是作者在多個 LLM backbones 上都觀察到:相對於 SFT,Minerva 的 RLVR 路線在 accuracy 與 robustness 上有一致改善。
當然,光看摘要我們不該把這件事吹成「RL 已經全面解決 CTI 自動化」。真正值得在意的其實不是某個 leaderboard 數字,而是它透露出的結構性訊號:
- CTI 並不是只能靠更多標註資料往前推
- community standards 本身可以被轉化成訓練 supervision
- 模型學會可驗證輸出,可能比學會更像人寫,更接近實務價值
這其實很重要。因為近年很多 CTI + LLM 工作,無論是 STIX 抽取、ATT&CK mapping、knowledge graph construction,最後都會撞上一個共同問題:下游需要的是能被驗的 output,不是只是 fluent output。 Minerva 的價值,就是把這件事從 evaluation 問題正式推回 training 問題。
我怎麼看這篇論文?
我覺得 Minerva 最有意思的地方,不是它選了 RL,而是它終於把 CTI 這個領域的一個天然優勢用對地方:這個領域本來就有標準、schema、identifier 與 deterministic checks,所以它比很多一般 NLP 任務更適合做 verifiable learning。
這篇 paper 的真正訊號是:未來 CTI LLM 的競爭點,可能不只會是更大的模型、更多的標註資料、或更炫的 prompt engineering,而會逐漸轉向誰比較會把 community knowledge infrastructure 直接接進 training loop。
也因此,我認為它對後續工作的啟發很明確:
- CTI extraction 可以不只在 inference 時做 validation,也可以把 validation 往回變成 reward
- STIX / ATT&CK / CAPEC / canonical vocabularies 不只是 annotation target,也可以是學習信號來源
- 真正可靠的 CTI agent,可能不是最會說 threat intelligence 的那個,而是最能穩定交出可驗證 intelligence object 的那個
如果要用一句話收這篇:Minerva 真正提出的,不只是「用 RL 做 CTI」,而是「當 CTI 世界本來就有可驗證標準時,模型訓練就不該再只停在模仿人類答案」。
這篇很可能不會是最熱鬧的論文,但它碰到的是很硬、也很關鍵的地基問題。對想把 LLM 真正接進 CTI pipeline 的人來說,這種地基型工作,往往比又一個華麗 demo 更值得看。
