論文閱讀分析:用大型語言模型與 SciBERT 辨識 CTI 報告中的 ATT&CK 技術

論文基本資訊

  • 論文標題:Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models
  • 來源:WWW Companion 2025
  • 年份:2025
  • 作者:Shahroz Tariq、Mohan Baruwal Chhetri、Bao Quoc Vo
  • 論文連結:https://arxiv.org/abs/2505.03147
  • 主題:CTI、MITRE ATT&CK、Attack Technique Identification、LLM、SciBERT、TRAM

這篇 Towards Effective Identification of Attack Techniques in Cyber Threat Intelligence Reports using Large Language Models 想處理的問題非常聚焦:如何從 CTI 報告中更有效地辨識 MITRE ATT&CK attack techniques

這個問題看似只是資訊抽取的一環,但實際上是 CTI 自動化中非常核心的任務。因為若無法準確地把 threat reports 中的敘述映射到 ATT&CK techniques,後續的威脅建模、知識圖譜建構、偵測工程、攻擊路徑分析與跨報告比較都會受到影響。

這篇論文的重點不是單純比較「LLM 好不好用」,而是用一個更務實的問題設定來分析:standalone LLM 為什麼做不好 technique identification?而若把 LLM 放在 summarisation / augmentation 的位置,再交給專門的分類模型處理,是否能得到更好的效果?

研究問題

作者把研究目標明確拆成兩個 research questions:

  1. RQ1:standalone vanilla LLMs 在 CTI extraction 上到底有多有效?
  2. RQ2:LLM-based augmentation 是否能提升自動化 CTI extraction 的效能?

這樣的拆法很好,因為它區分了兩件常被混在一起談的事:

  • 直接把 LLM 當 technique extractor
  • 把 LLM 放進整體 pipeline 裡,當作前處理或資料增強元件

作者的問題意識其實很清楚:現在很多人直覺上會認為 LLM 很擅長理解長文本,所以應該也很適合做 CTI report 中的 ATT&CK technique extraction;但論文要測的,就是這個直覺到底是不是真的成立。

背景:為什麼 attack technique identification 難?

從論文的脈絡來看,作者認為 CTI extraction 困難主要來自五個來源:

  • Domain complexity:CTI 報告充滿資安專業術語,和一般英文差異很大
  • Verbosity:威脅報告可能長達數十頁,但真正描述攻擊技術的段落只佔很小一部分
  • Relationship extraction:必須正確理解攻擊者、工具、受害者、技術之間的關係
  • Class imbalance:某些 ATT&CK techniques 在資料裡大量出現,某些則極少見
  • Replication inconsistency:很多方法在不同資料集上難以穩定重現

這表示這個任務不是簡單的 keyword spotting,而更接近一個結合長文本理解、技術語意判斷與多類別不平衡分類的複合問題。

資料集與任務設定

作者使用兩個已標註的 ground truth datasets:

  • Adversary Emulation Library (AEL)
    • 內容是較短、較精煉的攻擊 campaign 報告
    • 例如 APT29、Carbanak、FIN6 等
    • 帶有 MITRE ATT&CK technique IDs 標註
  • Attack-Technique-Dataset (ATD)
    • 內容是較長、較完整的 threat reports
    • 例如 OceanLotus、Sowbug、MuddyWater 等
    • 同樣含 technique-level annotation

在預處理階段,作者有幾個重要操作:

  • 移除 technique IDs
  • 移除 hyperlinks
  • 移除額外雜訊內容
  • 只保留 MITRE ATT&CK 中最常見的 top 50 techniques,以對齊 TRAM 的訓練設定

這代表任務不是開放世界的 technique extraction,而是限定在一組較常見 technique labels 上的辨識任務。這種設計比較貼近現有工具如 TRAM 的操作範圍,也使比較更公平。

比較方法:論文用了哪四種配置?

這篇論文最值得看的地方之一,是它把評估設計得很有層次。作者總共比較四類配置:

配置一:Standalone LLM for CTI Extraction

作者用三個不同大小的 Llama2 模型做 zero-shot prompting:

  • Llama2-7B
  • Llama2-13B
  • Llama2-70B

這個配置是在直接回答 RQ1:如果不做特殊設計,只把 open-source LLM 當成 attack technique extractor,它的效果如何?

配置二:Original TRAM

TRAM(Threat Report ATT&CK Mapper)是一個基於 SciBERT 的方法,設計目的是把句子分類到 MITRE ATT&CK 中最常見的 50 個 techniques。作者直接把原始 TRAM 當 baseline,並測試不同 confidence thresholds(25% 與 80%)。

這個 baseline 很合理,因為它本來就是此任務的代表性專門工具,而不是通用 LLM。

配置三:TRAM + LLM-based Summarisation

在這個配置中,作者先用 GPT-3.5 對 CTI report 做 summarisation,目的是減少 verbosity、保留和 attack techniques 有關的核心資訊,再把摘要後的結果丟給 SciBERT 分類。

這個配置背後的假設是:CTI 報告太長、太雜,會讓 technique classifier 難以專注;若先由 LLM 壓縮出更濃縮的技術內容,分類器也許會做得更好。

配置四:TRAM + LLM-based Summarisation + Rebalancing + Retraining

這是作者主推的完整方法。它包含三個關鍵步驟:

  1. 使用 GPT-3.5 對 CTI reports 做 summarisation
  2. 對 underrepresented techniques 使用 GPT-3.5 進行資料增強,同時 downsample 過度代表的類別,形成 rebalanced dataset
  3. 在這個新資料上重新訓練或 fine-tune SciBERT

論文也提到,他們測試了多種 retraining 設定,包括:

  • retraining
  • fine-tuning
  • retraining with 5-fold cross-validation

也就是說,作者不是單純在模型前面加一個 summariser,而是把 LLM 當成資料整理與資料增強工具,進一步改善專門分類器的學習條件。

核心方法:為什麼這個 two-step pipeline 合理?

這篇論文真正的方法貢獻,在於它的二段式設計:

CTI report
   ↓
LLM summarisation (GPT-3.5)
   ↓
rebalanced / augmented training data
   ↓
retrained SciBERT classifier
   ↓
MITRE ATT&CK technique identification

這裡的設計邏輯很清楚:

  • LLM 擅長長文本壓縮與保留語意核心
  • SciBERT 這類專門分類模型擅長做 label prediction
  • class imbalance 則用資料重平衡與 augmentation 來處理

因此,作者沒有把 LLM 當萬靈丹,而是把它放在更適合的位置:降低文本冗長性、增加少數類別樣本、改善分類器的輸入與訓練資料分布

這個思路其實很成熟,也比「直接用 LLM 做全部事情」更接近可落地的 engineering pipeline。

評估指標

作者使用標準分類指標:

  • Precision
  • Recall
  • F1-score

論文因篇幅限制,主要報告 F1-score,但也分析 true positives、false positives、false negatives。對於 LLM 與 AttackG 類方法,只要 technique name 或 ID 和 ground truth 一致就算正確;對 TRAM,則要求 technique name 與 ID 都要完全匹配。

這一點值得注意,因為不同系統的 matching criterion 其實會影響結果。作者把 TRAM 的條件設得更嚴格,也代表 baseline 並沒有被刻意放水。

結果一:Standalone Llama2 表現其實不好

這篇論文對 RQ1 的回答相當直接:vanilla open-source LLMs 單獨拿來做 CTI attack technique identification,效果不好。

作者用 AEL dataset 中 6 份短報告測試 Llama2 7B / 13B / 70B。結果顯示:

  • 三個模型整體都只抓到一部分 true positives
  • Llama2-70B 雖然抓到較多 true positives,但也產生更多 false positives
  • 整體而言,Llama2-7B 的表現甚至略優於 70B,因為 70B 的誤報太多

論文特別提到一個例子:在 FIN6 報告上,Llama2-7B 與 13B 分別產生 7 與 8 個 false positives,但 70B 卻產生 19 個 false positives。這反映出一件很重要的事:模型更大,不代表在這種高精度 mapping 任務上就一定更好。

從技術角度看,這其實很合理。因為 technique identification 要求的不只是語意理解,而是對 ATT&CK taxonomy 做相對精準的映射。LLM 若沒有任務特化,容易因語意相似而過度預測。

結果二:先摘要再分類,比原始 TRAM 稍好

在配置三中,作者先用 GPT-3.5 摘要報告,再交給 SciBERT 分類。結果顯示,這個配置的表現略優於原始 TRAM

這表示 summarisation 確實有幫助。原因大概可以理解為:

  • CTI report 很冗長,關鍵技術細節被埋在大量背景敘述中
  • LLM summarisation 能把與攻擊 technique 有關的訊息濃縮出來
  • 分類器接收到的訊號密度更高,因此更容易做對應

不過,這種提升還只是「稍微變好」,尚未真正解決核心問題。真正的進步來自後面的重平衡與重訓。

結果三:Rebalancing + Retraining 才是關鍵

作者最重要的結果在配置四。當他們用 GPT-3.5 做摘要,再利用 LLM 生成資料增強樣本,並對 underrepresented techniques 補強、對過度代表類別 downsample,最後重新訓練 SciBERT 後,模型表現出現明顯提升。

論文指出:

  • 相較 baseline,median F1-score 約提升 7 個百分點
  • 在若干 selected techniques 上,F1-score 可達 0.92
  • 多個 attack techniques 的辨識結果超過 0.90 F1

這個結果其實很關鍵,因為它說明問題不只是模型不夠強,而是:

  • 資料分布不平衡
  • 原始輸入太冗長
  • 任務本身需要更專門的分類器

換句話說,作者的答案不是「把 LLM 換大一點」,而是「重新設計資料與 pipeline」。

這篇論文最重要的發現是什麼?

如果把整篇論文濃縮成一句話,它最重要的發現是:

對 ATT&CK technique identification 這種高度結構化、標籤空間明確的 CTI extraction 任務,LLM 更適合做 summarisation 與 data augmentation,而不是直接取代專門分類器。

這其實是一個很有價值的結論,因為它幫很多看似合理、但未必有效的直覺踩了煞車。這篇論文不是否定 LLM,而是幫 LLM 找到更合理的位置。

方法上的限制與啟發

這篇論文雖然有明顯進步,但也留下幾個值得進一步思考的點:

  • 只處理 top 50 techniques:仍屬受限標籤空間,未必反映真實開放世界場景
  • 仍有 underrepresented techniques 難分類:表示重平衡雖有效,但不足以完全解決長尾問題
  • false positives 仍是問題:尤其對 standalone LLM 而言
  • relationship-level reasoning 未被完整處理:目前仍以 technique identification 為主,而非完整 TTP graph extraction

不過也正因如此,這篇論文給了很具體的未來方向:若要更進一步,可能需要把 LLM summarisation、專門分類器、human-in-the-loop 與更完整的 CTI graph reasoning 進一步整合。

重點整理

  • 這篇論文聚焦於從 CTI reports 中辨識 MITRE ATT&CK attack techniques。
  • 作者評估四種配置:standalone Llama2、原始 TRAM、TRAM + GPT-3.5 summarisation、TRAM + summarisation + rebalancing + retraining。
  • standalone open-source LLMs 表現不佳,尤其容易產生 false positives。
  • 單純先摘要再分類,只帶來小幅提升。
  • 真正有效的是:利用 GPT-3.5 做 summarisation 與資料增強,再對 rebalanced dataset 重訓 SciBERT。
  • 相較 baseline,整體 median F1 約提升 7 個百分點,部分 techniques 的 F1 可達 0.92。
  • 論文的重要結論是:在這類任務上,LLM 更適合當 pipeline enhancer,而不是直接當最終 technique mapper。

Takeaway

這篇論文最值得記住的一點,是它非常務實地指出:在 CTI 報告的 ATT&CK technique identification 任務上,LLM 的最佳角色不一定是終端預測器,而是前處理與資料增強器。

這個結論對資安 AI 研究很重要,因為它提醒我們不要把所有問題都丟給通用 LLM,而是要思考哪個模組最適合哪種能力。對於長文本、冗長敘述與不平衡資料並存的 CTI extraction 任務,作者提出的兩階段 pipeline 比單純的 vanilla LLM 更有效,也更接近實務上能維護、能優化、能驗證的系統設計。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like