論文閱讀分析:用大型語言模型與 SciBERT 辨識 CTI 報告中的 ATT&CK 技術
論文基本資訊
- 論文標題:Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models
- 來源:WWW Companion 2025
- 年份:2025
- 作者:Shahroz Tariq、Mohan Baruwal Chhetri、Bao Quoc Vo
- 論文連結:https://arxiv.org/abs/2505.03147
- 主題:CTI、MITRE ATT&CK、Attack Technique Identification、LLM、SciBERT、TRAM
這篇 Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models 想處理的問題非常聚焦:如何從 CTI 報告中更有效地辨識 MITRE ATT&CK attack techniques。
這個問題看似只是資訊抽取的一環,但實際上是 CTI 自動化中非常核心的任務。因為若無法準確地把 threat reports 中的敘述映射到 ATT&CK techniques,後續的威脅建模、知識圖譜建構、偵測工程、攻擊路徑分析與跨報告比較都會受到影響。
這篇論文的重點不是單純比較「LLM 好不好用」,而是用一個更務實的問題設定來分析:standalone LLM 為什麼做不好 technique identification?而若把 LLM 放在 summarisation / augmentation 的位置,再交給專門的分類模型處理,是否能得到更好的效果?
研究問題
作者把研究目標明確拆成兩個 research questions:
- RQ1:standalone vanilla LLMs 在 CTI extraction 上到底有多有效?
- RQ2:LLM-based augmentation 是否能提升自動化 CTI extraction 的效能?
這樣的拆法很好,因為它區分了兩件常被混在一起談的事:
- 直接把 LLM 當 technique extractor
- 把 LLM 放進整體 pipeline 裡,當作前處理或資料增強元件
作者的問題意識其實很清楚:現在很多人直覺上會認為 LLM 很擅長理解長文本,所以應該也很適合做 CTI report 中的 ATT&CK technique extraction;但論文要測的,就是這個直覺到底是不是真的成立。
背景:為什麼 attack technique identification 難?
從論文的脈絡來看,作者認為 CTI extraction 困難主要來自五個來源:
- Domain complexity:CTI 報告充滿資安專業術語,和一般英文差異很大
- Verbosity:威脅報告可能長達數十頁,但真正描述攻擊技術的段落只佔很小一部分
- Relationship extraction:必須正確理解攻擊者、工具、受害者、技術之間的關係
- Class imbalance:某些 ATT&CK techniques 在資料裡大量出現,某些則極少見
- Replication inconsistency:很多方法在不同資料集上難以穩定重現
這表示這個任務不是簡單的 keyword spotting,而更接近一個結合長文本理解、技術語意判斷與多類別不平衡分類的複合問題。
資料集與任務設定
作者使用兩個已標註的 ground truth datasets:
- Adversary Emulation Library (AEL)
- 內容是較短、較精煉的攻擊 campaign 報告
- 例如 APT29、Carbanak、FIN6 等
- 帶有 MITRE ATT&CK technique IDs 標註
- Attack-Technique-Dataset (ATD)
- 內容是較長、較完整的 threat reports
- 例如 OceanLotus、Sowbug、MuddyWater 等
- 同樣含 technique-level annotation
在預處理階段,作者有幾個重要操作:
- 移除 technique IDs
- 移除 hyperlinks
- 移除額外雜訊內容
- 只保留 MITRE ATT&CK 中最常見的 top 50 techniques,以對齊 TRAM 的訓練設定
這代表任務不是開放世界的 technique extraction,而是限定在一組較常見 technique labels 上的辨識任務。這種設計比較貼近現有工具如 TRAM 的操作範圍,也使比較更公平。
比較方法:論文用了哪四種配置?
這篇論文最值得看的地方之一,是它把評估設計得很有層次。作者總共比較四類配置:
配置一:Standalone LLM for CTI Extraction
作者用三個不同大小的 Llama2 模型做 zero-shot prompting:
- Llama2-7B
- Llama2-13B
- Llama2-70B
這個配置是在直接回答 RQ1:如果不做特殊設計,只把 open-source LLM 當成 attack technique extractor,它的效果如何?
配置二:Original TRAM
TRAM(Threat Report ATT&CK Mapper)是一個基於 SciBERT 的方法,設計目的是把句子分類到 MITRE ATT&CK 中最常見的 50 個 techniques。作者直接把原始 TRAM 當 baseline,並測試不同 confidence thresholds(25% 與 80%)。
這個 baseline 很合理,因為它本來就是此任務的代表性專門工具,而不是通用 LLM。
配置三:TRAM + LLM-based Summarisation
在這個配置中,作者先用 GPT-3.5 對 CTI report 做 summarisation,目的是減少 verbosity、保留和 attack techniques 有關的核心資訊,再把摘要後的結果丟給 SciBERT 分類。
這個配置背後的假設是:CTI 報告太長、太雜,會讓 technique classifier 難以專注;若先由 LLM 壓縮出更濃縮的技術內容,分類器也許會做得更好。
配置四:TRAM + LLM-based Summarisation + Rebalancing + Retraining
這是作者主推的完整方法。它包含三個關鍵步驟:
- 使用 GPT-3.5 對 CTI reports 做 summarisation
- 對 underrepresented techniques 使用 GPT-3.5 進行資料增強,同時 downsample 過度代表的類別,形成 rebalanced dataset
- 在這個新資料上重新訓練或 fine-tune SciBERT
論文也提到,他們測試了多種 retraining 設定,包括:
- retraining
- fine-tuning
- retraining with 5-fold cross-validation
也就是說,作者不是單純在模型前面加一個 summariser,而是把 LLM 當成資料整理與資料增強工具,進一步改善專門分類器的學習條件。
核心方法:為什麼這個 two-step pipeline 合理?
這篇論文真正的方法貢獻,在於它的二段式設計:
CTI report
↓
LLM summarisation (GPT-3.5)
↓
rebalanced / augmented training data
↓
retrained SciBERT classifier
↓
MITRE ATT&CK technique identification
這裡的設計邏輯很清楚:
- LLM 擅長長文本壓縮與保留語意核心
- SciBERT 這類專門分類模型擅長做 label prediction
- class imbalance 則用資料重平衡與 augmentation 來處理
因此,作者沒有把 LLM 當萬靈丹,而是把它放在更適合的位置:降低文本冗長性、增加少數類別樣本、改善分類器的輸入與訓練資料分布。
這個思路其實很成熟,也比「直接用 LLM 做全部事情」更接近可落地的 engineering pipeline。
評估指標
作者使用標準分類指標:
- Precision
- Recall
- F1-score
論文因篇幅限制,主要報告 F1-score,但也分析 true positives、false positives、false negatives。對於 LLM 與 AttackG 類方法,只要 technique name 或 ID 和 ground truth 一致就算正確;對 TRAM,則要求 technique name 與 ID 都要完全匹配。
這一點值得注意,因為不同系統的 matching criterion 其實會影響結果。作者把 TRAM 的條件設得更嚴格,也代表 baseline 並沒有被刻意放水。
結果一:Standalone Llama2 表現其實不好
這篇論文對 RQ1 的回答相當直接:vanilla open-source LLMs 單獨拿來做 CTI attack technique identification,效果不好。
作者用 AEL dataset 中 6 份短報告測試 Llama2 7B / 13B / 70B。結果顯示:
- 三個模型整體都只抓到一部分 true positives
- Llama2-70B 雖然抓到較多 true positives,但也產生更多 false positives
- 整體而言,Llama2-7B 的表現甚至略優於 70B,因為 70B 的誤報太多
論文特別提到一個例子:在 FIN6 報告上,Llama2-7B 與 13B 分別產生 7 與 8 個 false positives,但 70B 卻產生 19 個 false positives。這反映出一件很重要的事:模型更大,不代表在這種高精度 mapping 任務上就一定更好。
從技術角度看,這其實很合理。因為 technique identification 要求的不只是語意理解,而是對 ATT&CK taxonomy 做相對精準的映射。LLM 若沒有任務特化,容易因語意相似而過度預測。
結果二:先摘要再分類,比原始 TRAM 稍好
在配置三中,作者先用 GPT-3.5 摘要報告,再交給 SciBERT 分類。結果顯示,這個配置的表現略優於原始 TRAM。
這表示 summarisation 確實有幫助。原因大概可以理解為:
- CTI report 很冗長,關鍵技術細節被埋在大量背景敘述中
- LLM summarisation 能把與攻擊 technique 有關的訊息濃縮出來
- 分類器接收到的訊號密度更高,因此更容易做對應
不過,這種提升還只是「稍微變好」,尚未真正解決核心問題。真正的進步來自後面的重平衡與重訓。
結果三:Rebalancing + Retraining 才是關鍵
作者最重要的結果在配置四。當他們用 GPT-3.5 做摘要,再利用 LLM 生成資料增強樣本,並對 underrepresented techniques 補強、對過度代表類別 downsample,最後重新訓練 SciBERT 後,模型表現出現明顯提升。
論文指出:
- 相較 baseline,median F1-score 約提升 7 個百分點
- 在若干 selected techniques 上,F1-score 可達 0.92
- 多個 attack techniques 的辨識結果超過 0.90 F1
這個結果其實很關鍵,因為它說明問題不只是模型不夠強,而是:
- 資料分布不平衡
- 原始輸入太冗長
- 任務本身需要更專門的分類器
換句話說,作者的答案不是「把 LLM 換大一點」,而是「重新設計資料與 pipeline」。
這篇論文最重要的發現是什麼?
如果把整篇論文濃縮成一句話,它最重要的發現是:
對 ATT&CK technique identification 這種高度結構化、標籤空間明確的 CTI extraction 任務,LLM 更適合做 summarisation 與 data augmentation,而不是直接取代專門分類器。
這其實是一個很有價值的結論,因為它幫很多看似合理、但未必有效的直覺踩了煞車。這篇論文不是否定 LLM,而是幫 LLM 找到更合理的位置。
方法上的限制與啟發
這篇論文雖然有明顯進步,但也留下幾個值得進一步思考的點:
- 只處理 top 50 techniques:仍屬受限標籤空間,未必反映真實開放世界場景
- 仍有 underrepresented techniques 難分類:表示重平衡雖有效,但不足以完全解決長尾問題
- false positives 仍是問題:尤其對 standalone LLM 而言
- relationship-level reasoning 未被完整處理:目前仍以 technique identification 為主,而非完整 TTP graph extraction
不過也正因如此,這篇論文給了很具體的未來方向:若要更進一步,可能需要把 LLM summarisation、專門分類器、human-in-the-loop 與更完整的 CTI graph reasoning 進一步整合。
重點整理
- 這篇論文聚焦於從 CTI reports 中辨識 MITRE ATT&CK attack techniques。
- 作者評估四種配置:standalone Llama2、原始 TRAM、TRAM + GPT-3.5 summarisation、TRAM + summarisation + rebalancing + retraining。
- standalone open-source LLMs 表現不佳,尤其容易產生 false positives。
- 單純先摘要再分類,只帶來小幅提升。
- 真正有效的是:利用 GPT-3.5 做 summarisation 與資料增強,再對 rebalanced dataset 重訓 SciBERT。
- 相較 baseline,整體 median F1 約提升 7 個百分點,部分 techniques 的 F1 可達 0.92。
- 論文的重要結論是:在這類任務上,LLM 更適合當 pipeline enhancer,而不是直接當最終 technique mapper。
Takeaway
這篇論文最值得記住的一點,是它非常務實地指出:在 CTI 報告的 ATT&CK technique identification 任務上,LLM 的最佳角色不一定是終端預測器,而是前處理與資料增強器。
這個結論對資安 AI 研究很重要,因為它提醒我們不要把所有問題都丟給通用 LLM,而是要思考哪個模組最適合哪種能力。對於長文本、冗長敘述與不平衡資料並存的 CTI extraction 任務,作者提出的兩階段 pipeline 比單純的 vanilla LLM 更有效,也更接近實務上能維護、能優化、能驗證的系統設計。
免責聲明
本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
