Minerva 論文閱讀分析：當 CTI LLM 真正要交付可用輸出時，靠背答案可能已經不夠了

2026 年 4 月 11 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Minerva: Reinforcement Learning with Verifiable Rewards for Cyber Threat Intelligence LLMs
作者：Md Tanvirul Alam、Aritran Piplai、Ionut Cardei、Nidhi Rastogi、Peter J Worth
年份：2026
來源：arXiv:2602.00513
論文連結：https://arxiv.org/abs/2602.00513
主題：CTI、LLM、Reinforcement Learning、Verifiable Rewards、Structured Output、STIX、標準化威脅情報

如果最近一批 CTI + LLM 論文，大多還停在「怎麼抽得更準」「怎麼用 benchmark 證明模型比較懂」這條線，那 Minerva 值得看的地方，在於它把問題再往訓練方法本身往前推了一步：當 CTI 任務天然就帶有標準、schema、identifier 與可驗證結構時，我們是不是還要一直靠 supervised fine-tuning（SFT）硬背答案？還是其實可以把這些結構直接拿來做 reward，讓模型自己學會產出比較可靠的 CTI 輸出？

這篇論文的切點很對。因為 CTI 其實不是一個完全開放、無法驗證的自然語言生成場景。相反地，很多真正在實務裡重要的輸出，本來就有明確的驗證條件：

是不是對到正確的 canonical identifier
是不是符合 STIX / 結構化 schema
欄位之間是否一致
抽出的 relationship 能不能被 deterministic 規則驗證

也就是說，CTI 不是沒有 reward signal，而是以前常常沒把這些 reward signal 當成訓練資產。 Minerva 的核心價值，就在於它把這件事正式講清楚：如果社群標準本身已經提供了可以驗證的正確性邊界，那 RL with Verifiable Rewards（RLVR）在 CTI 上就不只是理論上可行，而是很可能比單純 SFT 更對味。

這篇論文想解決什麼問題？

作者點出的痛點非常實際：LLM 雖然已經開始被拿來做 CTI 自動化，但在產出結構化、可落地、可自動化接續使用的輸出時，仍然很脆弱。很多模型看起來會講 threat report、會做摘要、甚至能大致猜到 technique，但一旦要求它交出比較嚴格的 structured CTI output，就很容易出現：

identifier 對錯邊
欄位格式不穩
schema 不一致
表面看起來合理、實際卻無法被下游系統接住

這也是 CTI 自動化最麻煩的地方之一。真正的瓶頸常常不是模型能不能「大概理解」，而是它能不能把理解交成標準系統吃得下的東西。

過去很多做法主要依賴 SFT：拿人工或半人工標註好的資料，讓模型去模仿輸出格式。問題是，SFT 對這種任務有個很明顯的限制：它教模型模仿答案，但不一定真的教會模型什麼叫做可驗證地答對。 當輸出空間很大、標準又帶有結構約束時，光靠 imitation 往往不夠。

Minerva 因此想處理的是：能不能把 CTI 任務中那些本來就存在的 deterministic verification 機制，直接變成訓練 reward，讓模型在「可驗證正確」這件事上被優化，而不只是被要求像答案？

Minerva 的關鍵觀念：CTI 標準不是束縛，而是 reward engine

我認為這篇 paper 最值得記住的一句話，不是它用了 RL，而是它看見了一件很多人其實知道、卻沒有真的拿來設計訓練流程的事：CTI 社群那些看起來麻煩的標準、schema 與 canonical resources，剛好就是最適合做 verifiable reward 的基礎設施。

作者提出的是一個 unified dataset + training pipeline，把多個 CTI 子任務放進同一條訓練路線，並為每一類任務配上對應的 verifier。這種設計很重要，因為它代表 Minerva 不是只想解一個單點 benchmark，而是想處理一整類 CTI structured-output problem：

有些任務要驗 identifier prediction 是否正確
有些任務要驗 structured output 是否符合 task-specific 規格
有些任務要同時看內容與格式是否能被機器驗證

這讓 RL 的 reward 不再依賴模糊的人類偏好分數，而是直接依賴 task-specific verifiers。對 CTI 來說，這是一個很漂亮的方向，因為這個領域本來就比一般 open-ended generation 更接近「可形式化約束的知識工程」。

為什麼 RLVR 特別適合 CTI？

因為 CTI 的很多工作，本質上不是「寫得像不像分析師」，而是「交不交得出可用的標準化知識物件」。

像 threat report extraction、technique mapping、identifier normalization、entity / relation structuring 這些任務，最後的價值其實都來自一件事：你的輸出能不能進入自動化流程。 如果不能，那就還是停在 analyst-facing prose，而不是 machine-ready intelligence。

這也是 Minerva 和很多純 benchmark paper 很不一樣的地方。它不是只在比哪個模型分數高，而是把問題拉回更根本的一層：我們到底要把模型訓練成「比較會答題」，還是訓練成「比較會交付可驗證 CTI 物件」？

作者的答案很明確：後者更重要，而 RLVR 正好更貼近後者。

作者還補了一個很實際的洞：reward sparsity

只要做過 RL，就會知道一個老問題：reward 就算設計得再漂亮，若大部分 rollout 都拿不到像樣回饋，訓練還是很容易卡住。 CTI 這種結構化任務尤其如此，因為 verifier 通常很嚴，錯一個 identifier、漏一個欄位、格式歪掉，就可能整筆 reward 直接掉下去。

作者因此額外提出一個很務實的補強：lightweight self-training mechanism。它的精神不是把 RL 換回傳統 pseudo-labeling，而是：

先讓模型在 rollout 中產生更多候選軌跡
用 verifier 找出其中真正過關的 trajectories
再把這些 verified trajectories 蒸餾回模型

這個設計很聰明，因為它等於在 reward 太稀疏時，替模型補一層「已通過驗證的學習樣本回灌」。換句話說，Minerva 不只是在說「RL 可以用」，它還處理了「RL 在這裡為什麼不容易直接用」這個更麻煩的現實問題。

這也讓整篇論文比單純喊 RL-for-CTI 更成熟一些。它不是只指出方向，而是連訓練時最容易卡死的地方都提前處理了。

這篇論文最值得 sectools.tw 讀者注意的，不只是分數提升，而是訓練哲學的轉向

摘要裡最關鍵的結果，是作者在多個 LLM backbones 上都觀察到：相對於 SFT，Minerva 的 RLVR 路線在 accuracy 與 robustness 上有一致改善。

當然，光看摘要我們不該把這件事吹成「RL 已經全面解決 CTI 自動化」。真正值得在意的其實不是某個 leaderboard 數字，而是它透露出的結構性訊號：

CTI 並不是只能靠更多標註資料往前推
community standards 本身可以被轉化成訓練 supervision
模型學會可驗證輸出，可能比學會更像人寫，更接近實務價值

這其實很重要。因為近年很多 CTI + LLM 工作，無論是 STIX 抽取、ATT&CK mapping、knowledge graph construction，最後都會撞上一個共同問題：下游需要的是能被驗的 output，不是只是 fluent output。 Minerva 的價值，就是把這件事從 evaluation 問題正式推回 training 問題。

我怎麼看這篇論文？

我覺得 Minerva 最有意思的地方，不是它選了 RL，而是它終於把 CTI 這個領域的一個天然優勢用對地方：這個領域本來就有標準、schema、identifier 與 deterministic checks，所以它比很多一般 NLP 任務更適合做 verifiable learning。

這篇 paper 的真正訊號是：未來 CTI LLM 的競爭點，可能不只會是更大的模型、更多的標註資料、或更炫的 prompt engineering，而會逐漸轉向誰比較會把 community knowledge infrastructure 直接接進 training loop。

也因此，我認為它對後續工作的啟發很明確：

CTI extraction 可以不只在 inference 時做 validation，也可以把 validation 往回變成 reward
STIX / ATT&CK / CAPEC / canonical vocabularies 不只是 annotation target，也可以是學習信號來源
真正可靠的 CTI agent，可能不是最會說 threat intelligence 的那個，而是最能穩定交出可驗證 intelligence object 的那個

如果要用一句話收這篇：Minerva 真正提出的，不只是「用 RL 做 CTI」，而是「當 CTI 世界本來就有可驗證標準時，模型訓練就不該再只停在模仿人類答案」。

這篇很可能不會是最熱鬧的論文，但它碰到的是很硬、也很關鍵的地基問題。對想把 LLM 真正接進 CTI pipeline 的人來說，這種地基型工作，往往比又一個華麗 demo 更值得看。

Minerva 論文閱讀分析：當 CTI LLM 真正要交付可用輸出時，靠背答案可能已經不夠了

論文基本資訊

這篇論文想解決什麼問題？

Minerva 的關鍵觀念：CTI 標準不是束縛，而是 reward engine

為什麼 RLVR 特別適合 CTI？

作者還補了一個很實際的洞：reward sparsity

這篇論文最值得 sectools.tw 讀者注意的，不只是分數提升，而是訓練哲學的轉向

我怎麼看這篇論文？

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

Minerva 的關鍵觀念：CTI 標準不是束縛，而是 reward engine

為什麼 RLVR 特別適合 CTI？

作者還補了一個很實際的洞：reward sparsity

這篇論文最值得 sectools.tw 讀者注意的，不只是分數提升，而是訓練哲學的轉向

我怎麼看這篇論文？

發佈留言 取消回覆

You may also like

IRCopilot 論文閱讀分析：Incident Response 要能落地，光有會回答的 LLM 還不夠

GAAP 論文閱讀分析：真正該保的不是模型會不會被騙，而是就算它被騙了也別把你的私密資料送出去

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆