LRCTI 論文閱讀分析:用多步驟檢索與推理驗證 CTI 可信度

論文基本資訊

  • 論文標題:A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification
  • 來源:arXiv
  • 年份:2025
  • 作者:Huan Li、Ming Zhao、Zongzong Wu、Shisong Peng、Tao Yin
  • 論文連結:https://arxiv.org/abs/2507.11310
  • 主題:CTI、Credibility Verification、LLM、Multi-step Retrieval、Natural Language Inference

這篇 A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification 處理的是 CTI 系統裡很關鍵但常被低估的一件事:情資真假要怎麼驗?

前面很多 CTI × AI 研究都在談抽取、建圖、對映 ATT&CK 或做攻擊調查;但如果輸入的 threat intelligence 本身不可信,那後面再精緻的圖譜、RAG、推理都可能建立在錯誤基礎上。因此,CTI credibility verification 不只是輔助功能,而是整個自動化威脅分析鏈裡非常基礎的一層。

這篇論文的重點在於,它不把可信度判斷視為單純的 static classification 問題,而是把它重新定義為一個更接近真實分析師流程的任務:先濃縮 claim,再多步驟找證據,最後做 NLI 式推理並給出可解釋的判斷。

研究問題

作者認為,過去的 CTI credibility verification 方法大多有三個共通問題:

  • 把任務當成一次性的分類問題
  • 高度依賴 handcrafted features 或孤立的深度模型
  • 缺乏透明、可解釋的驗證過程

這在真實 CTI 場景中特別危險,因為威脅情報往往具有:

  • 不完整
  • 異質
  • 高噪音
  • 多來源且互相矛盾

所以這篇論文真正要回答的是:

  1. 能否把 CTI credibility verification 從單步分類,改造成 evidence-driven 的 multi-step reasoning 問題?
  2. 若用 LLM 做 claim summarisation、multi-step retrieval 與 prompt-based NLI,是否能在 accuracy 與 interpretability 上同時超越既有方法?

核心想法:讓模型模仿人類分析師的驗證流程

這篇論文很重要的一點,是它的問題建模方式。作者不是問「這段 CTI 文本看起來像真還是假」,而是讓系統模仿分析師的驗證流程:

CTI report
   ↓
先抽出可驗證的 threat claim
   ↓
到 CTI 專用語料中找相關證據
   ↓
如果證據不夠,再做下一輪檢索
   ↓
最後根據 claim 與 evidence 做推理
   ↓
輸出 credible / incredible / NEI 與理由

這樣的設計和傳統 classification 最大的不同,是它把「證據是否足夠」本身也納入模型流程,而不是強迫系統在證據不足時仍然做出二元判斷。

LRCTI 架構概觀

作者提出的系統叫做 LRCTI,主要由三個模組組成:

  1. Text Summarization Module
  2. Multi-Step Evidence Retrieval Module
  3. Text Reasoning Module

輸入是一篇原始 CTI report;輸出則包含:

  • 可信度標籤
  • 解釋文字

文中定義的輸出標籤實際上有兩個層次:

  • 最終可信度判斷:credible / incredible
  • 檢索與推理過程中的中間狀態:NEI(Not Enough Information)

NEI 很重要,因為它不是最終答案,而是系統知道自己「證據不夠」,因此應該繼續做 retrieval 的觸發訊號。

第一步:Text Summarization Module

作者認為,原始 CTI 報告通常太長、太雜,若直接整篇拿來做檢索與推理,不只效率差,也容易讓 irrelevant information 汙染整個 verification 流程。因此第一步先做 claim summarisation,把冗長報告壓縮成簡潔、可驗證的陳述。

這個 summarisation module 並不是完全黑箱。文中明確定義了 sentence selection 的方式。給定文件的句子集合:

S = {s_i}_{i=1}^N

每個句子的權重由三部分構成:

  • 句子與整份文件的 ROUGE1-F1 相似度
  • 句子位置權重 p(s_i)
  • 句子與其他句子的語意相似性 q(s_i)

最後的打分函數為:

w(s_i) = ROUGE1-F1(s_i, S) + α · p(s_i) + β · q(s_i)

其中:

  • αβ 是控制不同因素權重的超參數

分數最高的 top-m 句子會形成子集 R,再透過 prompt engineering 組成查詢 P(R),交給 LLM 生成摘要:

C = L(P(R))

這個設計其實很值得注意。作者沒有直接把整篇報告丟給 LLM 做 abstractive summarisation,而是先用 sentence scoring 過濾掉大量雜訊,再讓 LLM 對高價值句子做 summary。這樣做的好處包括:

  • 減少輸入長度與干擾
  • 保留更高密度的威脅訊號
  • 避免完全依賴 LLM 自行判斷哪些句子重要

第二步:Multi-Step Evidence Retrieval Module

這篇論文最核心的貢獻,在於它的 multi-step retrieval 設計。作者認為,一般單步檢索有兩個主要問題:

  • 一次檢索常抓到片段化、語義不對齊的證據
  • 若第一次抓錯,後續推理就建立在錯誤證據上

因此 LRCTI 改採多步驟證據檢索,包含三個關鍵環節:

  1. paragraph retrieval
  2. key evidence selection
  3. re-retrieval

2.1 Paragraph Retrieval

系統先從 CTI domain corpus 中,針對 claim C 檢索 top-k 段落:

P = R(C, 𝒫, k) = Top-k_{p ∈ 𝒫} r(C, p)

其中:

  • R 是 retriever
  • r(C, p) 是 claim 與 paragraph 的相似度分數

作者指出,dense retriever 雖然常用,但由於 dual encoder 架構難以充分處理 token-level interaction,因此在精細語義排序上仍有限制。

2.2 Progressive Paragraph Selection

為了彌補單純 dense retrieval 的不足,作者引入 progressive selection。它的概念是:

  • 先取得目前 paragraph set P
  • 再透過滑動窗口加入新候選段落 P*c
  • P ∪ P*c 中,由 LLM 再選出 top-k 最相關段落

這個步驟的目的,是用 LLM 做更細的 paragraph-level filtering,逐輪更新證據候選集,而不是完全依賴初次檢索結果。

這種設計可以理解為:

  • retriever 先做粗篩
  • LLM 再做語義細篩

比起傳統一次性 re-ranking,作者的方法會直接輸出新的 paragraph set,而不只是重排清單。

2.3 Key Evidence Selection

在 paragraph-level 篩選之後,系統還會進一步做 sentence-level semantic matching,挑出最 relevant 的句子形成最終 evidence set:

E_s = {E_1, E_2, E_3, ..., E_j}

這代表 LRCTI 的證據不是直接拿整段,而是從已縮小範圍的 paragraphs 中,再做 finer-grained evidence selection。這對 NLI 模組來說很重要,因為推理若吃到太多冗餘段落,容易降低判斷品質。

2.4 Re-retrieval 機制

如果目前證據不夠,系統不會硬做結論,而是啟動 re-retrieval。文中指出三種觸發條件:

  • irrelevant evidence:目前找到的證據和 claim 其實不相關
  • insufficient support:證據量或證據內容不足以支撐結論
  • low confidence:模型對目前判定缺乏足夠信心

形式上,系統會產生:

ẑ, R_e, λ = L(C, E_s, P)

其中:

  • ẑ ∈ {credible, incredible, NEI}
  • R_e 是 explanation
  • λ 是 confidence score

當:

  • ẑ = NEI
  • λ < θ

就啟動下一輪 retrieval。這樣的設計等於把「證據不足」視為一個合理中間狀態,而不是誤判成 credible / incredible。

第三步:Text Reasoning Module

當 evidence set 準備好後,系統會進入最後的 reasoning 階段。這部分本質上是 prompt-based Natural Language Inference(NLI)

也就是說,系統會把:

  • claim
  • retrieved evidence

一起餵給 LLM,要求它判定 evidence 與 claim 間的語義關係,並輸出:

  • credible
  • incredible
  • NEI

同時還要生成 human-readable justification。

這裡的關鍵價值在於:它不是只輸出 label,而是要輸出 reasoning explanation,提升 analyst 可理解性。這就是作者一直強調的 interpretability 來源。

Confidence 調整與 overconfidence 問題

作者也注意到一個很實際的問題:LLM 常常過度自信。即使答案錯,它也可能給出很高的 confidence。因此論文引入一個 overconfidence correction factor:

λ = θ × Conf

其中:

  • Conf 是 LLM 原始輸出的 confidence
  • θ ∈ [0,1] 是校正因子
  • λ 是最終調整後信心分數

λ < 0.5,系統就自動觸發下一輪 retrieval 與 reasoning。

這個設計雖然簡單,但很實用。因為它把 LLM 的自我評估結果轉化成流程控制訊號,而不是直接無條件相信模型的自信程度。

語料庫建構

LRCTI 的另一個重點,是它不是依賴開放世界的通用語料如 Wikipedia,而是建立了 CTI domain-specific corpus。文中提到,語料來源包括:

  • ATT&CK framework
  • Wikipedia
  • 知名安全部落格

整個 corpus construction 流程包括:

  1. web scraping
  2. data cleaning
  3. manual verification and annotation
  4. deduplication
  5. merging 同一事件的多份報告

這點很重要,因為多步驟檢索的前提就是 evidence pool 必須盡量 domain-relevant。若證據庫本身太泛,retrieval loop 再聰明也會被噪音拖垮。

實驗結果

根據摘要與前文描述,作者在兩個 benchmark 上驗證 LRCTI:

  • CTI-200
  • PolitiFact

結果顯示,相較 state-of-the-art baselines,LRCTI 在:

  • F1-Macro 提升超過 5%
  • F1-Micro 提升超過 5%

而最終成績達到:

  • F1-Macro = 90.9%
  • F1-Micro = 93.6%

這組數字顯示,作者的方法不只是概念上比較漂亮,而是確實在 benchmark 上打敗既有方法。

和 KGV 相比,這篇論文做了什麼不同?

如果把 LRCTI 和前面那篇 KGV 放在一起看,差別會很清楚:

  • KGV 強調用 paragraph-level semantic graph 做 verification
  • LRCTI 則強調 multi-step retrieval + NLI reasoning

也就是說:

  • KGV 比較像是以圖結構輔助語義驗證
  • LRCTI 則更接近「先找證據、再逐步推理」的 analyst workflow

LRCTI 的特色,在於它顯式地把「證據不夠就繼續找」做成系統流程,而不是只在單輪證據上做判斷。這使它在 interpretability 與流程合理性上,比很多 one-shot verification 模型更接近真實分析工作。

這篇論文的意義

這篇研究最值得注意的地方,不只是分數提升,而是它重新定義了 CTI credibility verification 的方法論:

  • 不是一次分類
  • 不是只依賴靜態特徵
  • 而是 evidence-grounded、iterative、interpretable 的 verification process

這種想法其實比單純用更大的模型更重要。因為在真實 CTI 場景裡,分析師最需要的往往不是一個黑箱答案,而是:

  • 你為什麼覺得它可信?
  • 你根據什麼證據?
  • 如果證據不夠,你有沒有再找?

LRCTI 正是在回答這些問題。

重點整理

  • 這篇論文提出 LRCTI,一套用於 CTI credibility verification 的 LLM-based multi-step framework。
  • 整體流程分成三部分:claim summarisation、multi-step evidence retrieval、prompt-based NLI reasoning。
  • summarisation module 不是純黑箱,先對句子計分,再選 top-m 句子給 LLM 生成摘要。
  • retrieval module 包含 paragraph retrieval、progressive paragraph selection、sentence-level evidence selection 與 re-retrieval。
  • 若 evidence 不足或 confidence 太低,系統會輸出 NEI 並觸發下一輪 retrieval。
  • 作者用 overconfidence correction factor 修正 LLM confidence,避免模型過度自信。
  • 在 CTI-200 與 PolitiFact 上,LRCTI 的 F1-Macro / F1-Micro 均比 SOTA baselines 提升超過 5%,達到 90.9% 與 93.6%。

Takeaway

這篇論文最值得記住的一點,是它把 CTI credibility verification 從「黑箱分類」推向了「多步驟找證據、逐輪檢查、最後再下判斷」的流程。這不只是模型效能的提升,而是任務建模方式的進步。

對研究者來說,LRCTI 的價值在於它證明:LLM 在 CTI 驗證任務中的最佳角色,不只是做最終分類,而是作為 claim condensation、evidence orchestration 與 NLI reasoning 的核心協調器。 對實務團隊來說,這也更接近真正可信的自動化分析流程,因為它不只給答案,還試圖給出答案背後的證據與理由。

免責聲明

本文由 AI 整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。

You may also like