論文閱讀分析：用大型語言模型與 SciBERT 辨識 CTI 報告中的 ATT&CK 技術

2026 年 4 月 6 日

論文基本資訊

論文標題：Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models
來源：WWW Companion 2025
年份：2025
作者：Shahroz Tariq、Mohan Baruwal Chhetri、Bao Quoc Vo
論文連結：https://arxiv.org/abs/2505.03147
主題：CTI、MITRE ATT&CK、Attack Technique Identification、LLM、SciBERT、TRAM

這篇 Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models 想處理的問題非常聚焦：如何從 CTI 報告中更有效地辨識 MITRE ATT&CK attack techniques。

這個問題看似只是資訊抽取的一環，但實際上是 CTI 自動化中非常核心的任務。因為若無法準確地把 threat reports 中的敘述映射到 ATT&CK techniques，後續的威脅建模、知識圖譜建構、偵測工程、攻擊路徑分析與跨報告比較都會受到影響。

這篇論文的重點不是單純比較「LLM 好不好用」，而是用一個更務實的問題設定來分析：standalone LLM 為什麼做不好 technique identification？而若把 LLM 放在 summarisation / augmentation 的位置，再交給專門的分類模型處理，是否能得到更好的效果？

研究問題

作者把研究目標明確拆成兩個 research questions：

RQ1：standalone vanilla LLMs 在 CTI extraction 上到底有多有效？
RQ2：LLM-based augmentation 是否能提升自動化 CTI extraction 的效能？

這樣的拆法很好，因為它區分了兩件常被混在一起談的事：

直接把 LLM 當 technique extractor
把 LLM 放進整體 pipeline 裡，當作前處理或資料增強元件

作者的問題意識其實很清楚：現在很多人直覺上會認為 LLM 很擅長理解長文本，所以應該也很適合做 CTI report 中的 ATT&CK technique extraction；但論文要測的，就是這個直覺到底是不是真的成立。

背景：為什麼 attack technique identification 難？

從論文的脈絡來看，作者認為 CTI extraction 困難主要來自五個來源：

Domain complexity：CTI 報告充滿資安專業術語，和一般英文差異很大
Verbosity：威脅報告可能長達數十頁，但真正描述攻擊技術的段落只佔很小一部分
Relationship extraction：必須正確理解攻擊者、工具、受害者、技術之間的關係
Class imbalance：某些 ATT&CK techniques 在資料裡大量出現，某些則極少見
Replication inconsistency：很多方法在不同資料集上難以穩定重現

這表示這個任務不是簡單的 keyword spotting，而更接近一個結合長文本理解、技術語意判斷與多類別不平衡分類的複合問題。

資料集與任務設定

作者使用兩個已標註的 ground truth datasets：

Adversary Emulation Library (AEL)
- 內容是較短、較精煉的攻擊 campaign 報告
- 例如 APT29、Carbanak、FIN6 等
- 帶有 MITRE ATT&CK technique IDs 標註
Attack-Technique-Dataset (ATD)
- 內容是較長、較完整的 threat reports
- 例如 OceanLotus、Sowbug、MuddyWater 等
- 同樣含 technique-level annotation

在預處理階段，作者有幾個重要操作：

移除 technique IDs
移除 hyperlinks
移除額外雜訊內容
只保留 MITRE ATT&CK 中最常見的 top 50 techniques，以對齊 TRAM 的訓練設定

這代表任務不是開放世界的 technique extraction，而是限定在一組較常見 technique labels 上的辨識任務。這種設計比較貼近現有工具如 TRAM 的操作範圍，也使比較更公平。

比較方法：論文用了哪四種配置？

這篇論文最值得看的地方之一，是它把評估設計得很有層次。作者總共比較四類配置：

配置一：Standalone LLM for CTI Extraction

作者用三個不同大小的 Llama2 模型做 zero-shot prompting：

Llama2-7B
Llama2-13B
Llama2-70B

這個配置是在直接回答 RQ1：如果不做特殊設計，只把 open-source LLM 當成 attack technique extractor，它的效果如何？

配置二：Original TRAM

TRAM（Threat Report ATT&CK Mapper）是一個基於 SciBERT 的方法，設計目的是把句子分類到 MITRE ATT&CK 中最常見的 50 個 techniques。作者直接把原始 TRAM 當 baseline，並測試不同 confidence thresholds（25% 與 80%）。

這個 baseline 很合理，因為它本來就是此任務的代表性專門工具，而不是通用 LLM。

配置三：TRAM + LLM-based Summarisation

在這個配置中，作者先用 GPT-3.5 對 CTI report 做 summarisation，目的是減少 verbosity、保留和 attack techniques 有關的核心資訊，再把摘要後的結果丟給 SciBERT 分類。

這個配置背後的假設是：CTI 報告太長、太雜，會讓 technique classifier 難以專注；若先由 LLM 壓縮出更濃縮的技術內容，分類器也許會做得更好。

配置四：TRAM + LLM-based Summarisation + Rebalancing + Retraining

這是作者主推的完整方法。它包含三個關鍵步驟：

使用 GPT-3.5 對 CTI reports 做 summarisation
對 underrepresented techniques 使用 GPT-3.5 進行資料增強，同時 downsample 過度代表的類別，形成 rebalanced dataset
在這個新資料上重新訓練或 fine-tune SciBERT

論文也提到，他們測試了多種 retraining 設定，包括：

retraining
fine-tuning
retraining with 5-fold cross-validation

也就是說，作者不是單純在模型前面加一個 summariser，而是把 LLM 當成資料整理與資料增強工具，進一步改善專門分類器的學習條件。

核心方法：為什麼這個 two-step pipeline 合理？

這篇論文真正的方法貢獻，在於它的二段式設計：

CTI report
   ↓
LLM summarisation (GPT-3.5)
   ↓
rebalanced / augmented training data
   ↓
retrained SciBERT classifier
   ↓
MITRE ATT&CK technique identification

這裡的設計邏輯很清楚：

LLM 擅長長文本壓縮與保留語意核心
SciBERT 這類專門分類模型擅長做 label prediction
class imbalance 則用資料重平衡與 augmentation 來處理

因此，作者沒有把 LLM 當萬靈丹，而是把它放在更適合的位置：降低文本冗長性、增加少數類別樣本、改善分類器的輸入與訓練資料分布。

這個思路其實很成熟，也比「直接用 LLM 做全部事情」更接近可落地的 engineering pipeline。

評估指標

作者使用標準分類指標：

Precision
Recall
F1-score

論文因篇幅限制，主要報告 F1-score，但也分析 true positives、false positives、false negatives。對於 LLM 與 AttackG 類方法，只要 technique name 或 ID 和 ground truth 一致就算正確；對 TRAM，則要求 technique name 與 ID 都要完全匹配。

這一點值得注意，因為不同系統的 matching criterion 其實會影響結果。作者把 TRAM 的條件設得更嚴格，也代表 baseline 並沒有被刻意放水。

結果一：Standalone Llama2 表現其實不好

這篇論文對 RQ1 的回答相當直接：vanilla open-source LLMs 單獨拿來做 CTI attack technique identification，效果不好。

作者用 AEL dataset 中 6 份短報告測試 Llama2 7B / 13B / 70B。結果顯示：

三個模型整體都只抓到一部分 true positives
Llama2-70B 雖然抓到較多 true positives，但也產生更多 false positives
整體而言，Llama2-7B 的表現甚至略優於 70B，因為 70B 的誤報太多

論文特別提到一個例子：在 FIN6 報告上，Llama2-7B 與 13B 分別產生 7 與 8 個 false positives，但 70B 卻產生 19 個 false positives。這反映出一件很重要的事：模型更大，不代表在這種高精度 mapping 任務上就一定更好。

從技術角度看，這其實很合理。因為 technique identification 要求的不只是語意理解，而是對 ATT&CK taxonomy 做相對精準的映射。LLM 若沒有任務特化，容易因語意相似而過度預測。

結果二：先摘要再分類，比原始 TRAM 稍好

在配置三中，作者先用 GPT-3.5 摘要報告，再交給 SciBERT 分類。結果顯示，這個配置的表現略優於原始 TRAM。

這表示 summarisation 確實有幫助。原因大概可以理解為：

CTI report 很冗長，關鍵技術細節被埋在大量背景敘述中
LLM summarisation 能把與攻擊 technique 有關的訊息濃縮出來
分類器接收到的訊號密度更高，因此更容易做對應

不過，這種提升還只是「稍微變好」，尚未真正解決核心問題。真正的進步來自後面的重平衡與重訓。

結果三：Rebalancing + Retraining 才是關鍵

作者最重要的結果在配置四。當他們用 GPT-3.5 做摘要，再利用 LLM 生成資料增強樣本，並對 underrepresented techniques 補強、對過度代表類別 downsample，最後重新訓練 SciBERT 後，模型表現出現明顯提升。

論文指出：

相較 baseline，median F1-score 約提升 7 個百分點
在若干 selected techniques 上，F1-score 可達 0.92
多個 attack techniques 的辨識結果超過 0.90 F1

這個結果其實很關鍵，因為它說明問題不只是模型不夠強，而是：

資料分布不平衡
原始輸入太冗長
任務本身需要更專門的分類器

換句話說，作者的答案不是「把 LLM 換大一點」，而是「重新設計資料與 pipeline」。

這篇論文最重要的發現是什麼？

如果把整篇論文濃縮成一句話，它最重要的發現是：

對 ATT&CK technique identification 這種高度結構化、標籤空間明確的 CTI extraction 任務，LLM 更適合做 summarisation 與 data augmentation，而不是直接取代專門分類器。

這其實是一個很有價值的結論，因為它幫很多看似合理、但未必有效的直覺踩了煞車。這篇論文不是否定 LLM，而是幫 LLM 找到更合理的位置。

方法上的限制與啟發

這篇論文雖然有明顯進步，但也留下幾個值得進一步思考的點：

只處理 top 50 techniques：仍屬受限標籤空間，未必反映真實開放世界場景
仍有 underrepresented techniques 難分類：表示重平衡雖有效，但不足以完全解決長尾問題
false positives 仍是問題：尤其對 standalone LLM 而言
relationship-level reasoning 未被完整處理：目前仍以 technique identification 為主，而非完整 TTP graph extraction

不過也正因如此，這篇論文給了很具體的未來方向：若要更進一步，可能需要把 LLM summarisation、專門分類器、human-in-the-loop 與更完整的 CTI graph reasoning 進一步整合。

重點整理

這篇論文聚焦於從 CTI reports 中辨識 MITRE ATT&CK attack techniques。
作者評估四種配置：standalone Llama2、原始 TRAM、TRAM + GPT-3.5 summarisation、TRAM + summarisation + rebalancing + retraining。
standalone open-source LLMs 表現不佳，尤其容易產生 false positives。
單純先摘要再分類，只帶來小幅提升。
真正有效的是：利用 GPT-3.5 做 summarisation 與資料增強，再對 rebalanced dataset 重訓 SciBERT。
相較 baseline，整體 median F1 約提升 7 個百分點，部分 techniques 的 F1 可達 0.92。
論文的重要結論是：在這類任務上，LLM 更適合當 pipeline enhancer，而不是直接當最終 technique mapper。

Takeaway

這篇論文最值得記住的一點，是它非常務實地指出：在 CTI 報告的 ATT&CK technique identification 任務上，LLM 的最佳角色不一定是終端預測器，而是前處理與資料增強器。

這個結論對資安 AI 研究很重要，因為它提醒我們不要把所有問題都丟給通用 LLM，而是要思考哪個模組最適合哪種能力。對於長文本、冗長敘述與不平衡資料並存的 CTI extraction 任務，作者提出的兩階段 pipeline 比單純的 vanilla LLM 更有效，也更接近實務上能維護、能優化、能驗證的系統設計。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

論文閱讀分析：用大型語言模型與 SciBERT 辨識 CTI 報告中的 ATT&CK 技術

論文基本資訊

研究問題

背景：為什麼 attack technique identification 難？

資料集與任務設定

比較方法：論文用了哪四種配置？

配置一：Standalone LLM for CTI Extraction

配置二：Original TRAM

配置三：TRAM + LLM-based Summarisation

配置四：TRAM + LLM-based Summarisation + Rebalancing + Retraining

核心方法：為什麼這個 two-step pipeline 合理？

評估指標

結果一：Standalone Llama2 表現其實不好

結果二：先摘要再分類，比原始 TRAM 稍好

結果三：Rebalancing + Retraining 才是關鍵

這篇論文最重要的發現是什麼？

方法上的限制與啟發

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題

背景：為什麼 attack technique identification 難？

資料集與任務設定

比較方法：論文用了哪四種配置？

配置一：Standalone LLM for CTI Extraction

配置二：Original TRAM

配置三：TRAM + LLM-based Summarisation

配置四：TRAM + LLM-based Summarisation + Rebalancing + Retraining

核心方法：為什麼這個 two-step pipeline 合理？

評估指標

結果一：Standalone Llama2 表現其實不好

結果二：先摘要再分類，比原始 TRAM 稍好

結果三：Rebalancing + Retraining 才是關鍵

這篇論文最重要的發現是什麼？

方法上的限制與啟發

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

論文閱讀分析：用 Knowledge Graph 與大型語言模型打造可行動的 Cyber Threat Intelligence

RAGIntel 論文閱讀分析：用 RAG 與大型語言模型做攻擊調查

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆