TRIAGE 論文閱讀分析：當 CVE 不再只是漏洞條目，而是可以直接長出 ATT&CK 攻擊脈絡

2026 年 4 月 10 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：A Systematic Approach to Predict the Impact of Cybersecurity Vulnerabilities Using LLMs
作者：Pierre Lison、Leon Moonen
來源：arXiv / TrustCom 2025
年份：2025
arXiv：https://arxiv.org/abs/2508.18439
主題：CVE、MITRE ATT&CK、Vulnerability Intelligence、Technique Mapping、LLM、In-Context Learning

如果最近這波 sectools.tw 的 CTI / AI 論文主線，已經一路從 threat report technique extraction、knowledge graph、benchmark 寫到 vulnerability intelligence，那這篇 TRIAGE 值得補進來的原因很直接：它不是再問模型會不會讀 threat report，而是問我們能不能把每天大量冒出的 CVE，直接連到更接近實戰意義的 ATT&CK techniques。

這件事很關鍵。因為 CVE 資料庫通常會告訴你漏洞是什麼、嚴重度多少、屬於哪類 CWE，但它很少直接告訴你：攻擊者實際上可能會用什麼 TTP 利用它、利用後先拿到什麼能力、接著還可能往哪裡擴張。 真正讓分析師頭痛的，不是少一個 CVSS 分數，而是少了這層攻擊脈絡。

TRIAGE 的野心，就是把這層缺掉的「impact intelligence」自動補起來。它想做的不是一般的漏洞分類，而是把 CVE 往 MITRE ATT&CK technique mapping 推進一步，讓 vulnerability management 與 adversary tradecraft 之間多一條可以自動化的橋。

這篇論文真正瞄準的，不只是漏洞描述，而是漏洞和攻擊行為之間的斷層

作者指出，NVD 這類漏洞資料庫雖然很完整，但它主要還是站在「漏洞條目管理」的角度記錄資訊；ATT&CK 則站在「攻擊者如何行動」的角度描述技術與程序。這兩邊都重要，但中間沒有直接對齊。

於是現場就會出現一個很典型的落差：

你知道某個 CVE 是 deserialization、auth bypass、SSRF 或 RCE。
你也知道 ATT&CK 裡有哪些 exploitation、credential access、lateral movement 技術。
但你未必能快速把兩者穩定接起來。

而這個映射偏偏又是風險判斷的核心。因為對 defender 來說，真正有價值的不只是「有洞」，而是：這個洞比較像會被拿來做 T1190、T1203，還是後續更可能引出 credential dumping、valid accounts、command execution 之類的能力鏈？

所以這篇 paper 的價值，不在於它又發明一個新 benchmark，而是它把 CVE-to-ATT&CK 這件事從零散研究題，往更系統化、可操作的方法推進。

TRIAGE 的核心想法：把規則導向的 CMM，和資料導向的 in-context learning 接在一起

這篇最值得記住的，不是單純「拿 LLM 來做 mapping」，而是作者沒有把希望全部押在單一路線上。TRIAGE 採的是雙軌設計：

Methodology Mappers：把 MITRE 的 CVE Mapping Methodology (CMM) 拆成多個可提示化的子任務，讓 LLM 依照這套方法學回答。
In-Context Learner：直接給模型帶標註的 CVE 範例、ATT&CK technique 描述、CWE、CVSS 等脈絡，讓它用 many-shot in-context learning 產生排序結果。

換句話說，作者其實在做一件很務實的事：一邊保留資安領域既有方法學的結構化知識，一邊利用 LLM 在少量標註情境下的類比推理能力。

這和很多只丟一段 CVE 描述、再問模型「請幫我對應 ATT&CK」的做法差很多。作者很清楚，這種 mapping 不只是語意相似度問題，而是有方法論、有攻擊階段、有 mapping type 的。

CMM 為什麼重要？因為它把漏洞影響拆成三段，而不是只猜一個 technique 名字

TRIAGE 站得住腳，很大一部分是因為它不是亂貼標籤，而是沿著 CMM 的思路，把漏洞影響拆成三個 mapping type：

Exploitation Technique：攻擊者怎麼利用這個漏洞
Primary Impact：成功利用後先拿到的能力
Secondary Impact：再往後可能擴張出的能力

這個切法非常重要，因為它把「漏洞 impact」從單點標註，拉成了更像攻擊鏈的表示。對藍隊來說，這遠比只猜一個 ATT&CK tactic 更實用。因為你不只是知道某洞可能危險，而是開始知道它危險在哪一段、後續路徑可能怎麼長。

作者進一步把 CMM 內的五種分析方法各自做成 promptable mapper：

Vulnerability type
Functionality
Exploitation technique
Affected object
Tactic

每個 mapper 都像是在逼模型回答更具體的問題，而不是直接憑感覺猜答案。這種設計背後的好處很明確：你不是把整個 mapping 問題壓成一個黑盒分類器，而是把它拆成多個較可檢查、較接近分析師思路的步驟。

另一條線更有意思：直接讓 LLM 看大量帶標註案例，學會像 analyst 一樣比對

光靠 methodology mappers 還不夠，所以作者又做了 In-Context Learner。這部分其實更像在模擬資安分析師工作：看當前 CVE，回想過去長得像的案例，再參照 ATT&CK technique 描述，最後做出排序。

這個 prompt 裡放進去的東西很多：

ATT&CK enterprise techniques 的名稱與完整描述
CVE description
CVSS metrics
CWE type
大量已標註的 in-context examples
要求輸出每一種 mapping type 的 top-10 ranked techniques

作者甚至做了 ablation study，結果很值得記住：真正最有幫助的，不是 CVSS 或 CWE 這些附加欄位，而是 attack description 與大量 demonstrations。 尤其在 exploitation technique 預測上，示範數量從 235 個降到 30 個時，MAP 與 recall 會明顯掉一截；若完全拿掉 examples，表現更是大幅下滑。

這背後透露出的訊息很清楚：這類 vulnerability-to-TTP mapping，LLM 的強項不是空手理解，而是有足夠案例時的類比式判斷。

資料集不大，但問題很真：296 個 CVE、806 筆 mapping，而且類別極度不平衡

TRIAGE 的評估建立在 MITRE 提供的 KEV dataset 上，共有 296 個 CVE、806 筆 mappings。乍看之下規模不算巨大，但對這類高成本標註任務來說，已經很有代表性。

更重要的是，這個資料集非常不平衡，而且 secondary impact 特別稀疏。作者明確指出：

很多 technique 在資料中只出現少量樣本
secondary impact 在大量 CVE 裡是空值
資料集中甚至有一些 technique 不在 CMM 裡，反之亦然

這點非常有現實感。因為真正的 vulnerability intelligence 也常是這樣：你想追的攻擊路徑本來就不平均，而且標註規則、外部知識與資料本身之間常常不完全一致。 這也是為什麼這篇 paper 的結果不能只看單一數字，還要看它在哪些 mapping type 上比較有力、哪裡還很脆弱。

結果怎麼看？最強的是 exploitation technique，最難的還是 secondary impact

先看作者自己的結論：In-Context Learner 整體明顯比單獨的 Methodology Mappers 強，而把兩者混起來的 TRIAGE，又能在某些地方進一步補上 recall。

用 GPT-4o-mini 跑時，幾個關鍵數字很值得記：

Exploitation technique：ICL 單獨就有 MAP 0.65，TRIAGE 組合後測試集 R@10 提升到 0.82
Primary impact：測試集 MAP 約 0.50，R@10 約 0.77
Secondary impact：測試集 MAP 只有 0.18，但 R@10 可到 0.80

這些數字透露出一個很真實的訊號：模型其實常能把正確 secondary impact 放進前十名，但很難把它排到前面。 也就是說，它對「可能相關」已有一定感知，但對排序品質還不夠穩。這和 secondary impact 本來就更長尾、更稀疏、更依賴外部脈絡的特性完全對得上。

作者也比較了 GPT-4o-mini 與 Llama 3.3-70B，結果 GPT-4o-mini 幾乎全面更好。這對實務界的提醒其實很直接：在這種結合方法學與 few-shot context 的任務裡，模型尺寸不是唯一決定因素；prompt 結構、示範品質與任務拆解方式同樣重要。

真正值得注意的，不是它贏多少，而是它怎麼贏過前一代做法

論文裡還拿 TRIAGE 跟較早的 SMET 做比較。若把三種 mapping type 合併看，TRIAGE 在 test set 上：

含 secondary impacts 時，MAP 0.57，而 SMET 只有 0.20
排除 secondary impacts 時，MAP 0.60，而 SMET 只有 0.21

差距其實非常大。這代表兩件事：

單靠語意匹配或 attack vector 抽取，已經不太夠。
把領域方法學 + in-context demonstrations 結合起來，真的能讓 CVE-to-ATT&CK 這件事更接近可用。

從研究脈絡來看，這篇 paper 很像是在說：我們不該再把 vulnerability intelligence 當成只是把 CVE 轉成另一個 label 的分類任務，而是要把它當成結合知識框架、案例比對與攻擊階段理解的混合推理問題。

這篇論文最有意思的地方，其實是它暴露了 ground truth 本身也不一定那麼穩

我很喜歡作者後面做的 qualitative analysis。因為它沒有把 benchmark label 當神諭，而是反過來檢查：如果 TRIAGE 和 ground truth 不一致，到底是模型錯，還是標註本身就有灰區？

這一段很重要，因為 vulnerability impact mapping 本來就不是純客觀事實。有些 CVE 描述很短、有些 secondary impact 很像 analyst 腦中的延伸推論、有些 mapping 甚至未必能直接從 CMM 推導出來。作者就發現：

有些 ground truth 缺了看起來合理的 primary / secondary impact
有些 CVE 被標了很多 secondary impact，但從描述中其實不容易直接推出
有些 technique 在資料裡的角色分布不穩，例如平常多出現在 exploitation，少數案例卻被標到 primary impact

這對 CTI / vuln intelligence 很關鍵。因為它提醒我們：自動化系統不是只要追 benchmark 分數，還要知道 benchmark 本身可能也帶著 analyst judgement 的不一致。 真正上線時，這類工具更適合當 analyst 的加速器，而不是全自動最終裁決者。

把它放回近期 sectools.tw 的主線裡，這篇剛好補上了漏洞情報到攻擊知識之間的缺口

如果把 TRIAGE 放回最近這批文章脈絡，它的位置其實很漂亮：

VulGD 比較像是在補 vulnerability knowledge infrastructure。
SynthCTI 在補 technique mapping 的長尾資料問題。
Beyond Single Reports、What Are Adversaries Doing? 在問 technique extraction 的 realism 與抽取範圍。
TRIAGE 則是把焦點轉到另一個同樣重要、但更貼近弱點管理流程的入口：我們能不能讓 CVE 不只是一筆漏洞公告，而是更快長成可操作的 ATT&CK impact context？

它也順手指出一個很容易被忽略的事：CTI 不只存在於 APT 報告、論壇貼文與事件敘事裡，漏洞條目本身其實也是 threat intelligence pipeline 的起點。 只是過去這條線和 ATT&CK 的連接，太常靠人工補。

對實務團隊來說，這篇 paper 最值得帶走的五件事

Vulnerability intelligence 不該只停在 CVSS / CWE。 若能連到 ATT&CK，才更接近 defender 真正要的脈絡。
把 mapping 任務拆開，比直接問模型猜答案更可靠。 方法學仍然有價值，不該被 LLM 全盤取代。
Few-shot examples 很重要。 這類任務高度依賴案例比對，不是空手推理就能穩做。
Secondary impact 很難，但也最有情報價值。 這剛好是後續研究最值得補強的地方。
自動化應該先當 analyst co-pilot。 因為 ground truth 本身就可能有灰區，工具更適合做候選生成與優先排序。

怎麼看這篇論文？

TRIAGE 不是那種會靠超大模型或誇張 benchmark headline 爆紅的 paper，但它做了一件非常對的事：把一個實務上真的有痛感、研究上又常被拆得太零碎的問題，重新整理成一條比較完整的自動化路線。

它最有價值的地方，在於沒有把 LLM 神化。作者很明白，單靠模型自由發揮不夠；你需要方法學、需要結構化分解、需要 demonstrations、需要理解不同 impact type 的不對稱難度。這種寫法其實很資安，也很工程。

如果你今天在做 vulnerability prioritization、threat-informed defense、ATT&CK coverage 分析，或只是想讓弱點管理不再只剩 CVSS 排序，那這篇 paper 值得看。因為它在提醒我們：真正有用的漏洞情報，不只是知道哪裡有洞，而是更早知道這個洞會把攻擊者帶到哪裡去。

而 TRIAGE 給出的答案是：這件事可以開始自動化，但前提不是盲信模型，而是把方法學與案例學習一起接上去。

TRIAGE 論文閱讀分析：當 CVE 不再只是漏洞條目，而是可以直接長出 ATT&CK 攻擊脈絡

論文基本資訊

這篇論文真正瞄準的，不只是漏洞描述，而是漏洞和攻擊行為之間的斷層

TRIAGE 的核心想法：把規則導向的 CMM，和資料導向的 in-context learning 接在一起

CMM 為什麼重要？因為它把漏洞影響拆成三段，而不是只猜一個 technique 名字

另一條線更有意思：直接讓 LLM 看大量帶標註案例，學會像 analyst 一樣比對

資料集不大，但問題很真：296 個 CVE、806 筆 mapping，而且類別極度不平衡

結果怎麼看？最強的是 exploitation technique，最難的還是 secondary impact

真正值得注意的，不是它贏多少，而是它怎麼贏過前一代做法

這篇論文最有意思的地方，其實是它暴露了 ground truth 本身也不一定那麼穩

把它放回近期 sectools.tw 的主線裡，這篇剛好補上了漏洞情報到攻擊知識之間的缺口

對實務團隊來說，這篇 paper 最值得帶走的五件事

怎麼看這篇論文？

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文真正瞄準的，不只是漏洞描述，而是漏洞和攻擊行為之間的斷層

TRIAGE 的核心想法：把規則導向的 CMM，和資料導向的 in-context learning 接在一起

CMM 為什麼重要？因為它把漏洞影響拆成三段，而不是只猜一個 technique 名字

另一條線更有意思：直接讓 LLM 看大量帶標註案例，學會像 analyst 一樣比對

資料集不大，但問題很真：296 個 CVE、806 筆 mapping，而且類別極度不平衡

結果怎麼看？最強的是 exploitation technique，最難的還是 secondary impact

真正值得注意的，不是它贏多少，而是它怎麼贏過前一代做法

這篇論文最有意思的地方，其實是它暴露了 ground truth 本身也不一定那麼穩

把它放回近期 sectools.tw 的主線裡，這篇剛好補上了漏洞情報到攻擊知識之間的缺口

對實務團隊來說，這篇 paper 最值得帶走的五件事

怎麼看這篇論文？

發佈留言 取消回覆

You may also like

ClawGuard 論文閱讀分析：真正能擋下間接提示注入的，可能不是更乖的模型，而是工具邊界前那道不靠運氣的安檢

In-Context Autonomous Network Incident Response 論文閱讀分析：IR Agent 要會的不只是回答，而是持續修正與規劃

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆