LRCTI 論文閱讀分析：用多步驟檢索與推理驗證 CTI 可信度

2026 年 4 月 6 日

論文基本資訊

論文標題：A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification
來源：arXiv
年份：2025
作者：Huan Li、Ming Zhao、Zongzong Wu、Shisong Peng、Tao Yin
論文連結：https://arxiv.org/abs/2507.11310
主題：CTI、Credibility Verification、LLM、Multi-step Retrieval、Natural Language Inference

這篇 A Large Language Model-Based Framework for Multi-Step Evidence Retrieval and Reasoning in Cyber Threat Intelligence Credibility Verification 處理的是 CTI 系統裡很關鍵但常被低估的一件事：情資真假要怎麼驗？

前面很多 CTI × AI 研究都在談抽取、建圖、對映 ATT&CK 或做攻擊調查；但如果輸入的 threat intelligence 本身不可信，那後面再精緻的圖譜、RAG、推理都可能建立在錯誤基礎上。因此，CTI credibility verification 不只是輔助功能，而是整個自動化威脅分析鏈裡非常基礎的一層。

這篇論文的重點在於，它不把可信度判斷視為單純的 static classification 問題，而是把它重新定義為一個更接近真實分析師流程的任務：先濃縮 claim，再多步驟找證據，最後做 NLI 式推理並給出可解釋的判斷。

研究問題

作者認為，過去的 CTI credibility verification 方法大多有三個共通問題：

把任務當成一次性的分類問題
高度依賴 handcrafted features 或孤立的深度模型
缺乏透明、可解釋的驗證過程

這在真實 CTI 場景中特別危險，因為威脅情報往往具有：

不完整
異質
高噪音
多來源且互相矛盾

所以這篇論文真正要回答的是：

能否把 CTI credibility verification 從單步分類，改造成 evidence-driven 的 multi-step reasoning 問題？
若用 LLM 做 claim summarisation、multi-step retrieval 與 prompt-based NLI，是否能在 accuracy 與 interpretability 上同時超越既有方法？

核心想法：讓模型模仿人類分析師的驗證流程

這篇論文很重要的一點，是它的問題建模方式。作者不是問「這段 CTI 文本看起來像真還是假」，而是讓系統模仿分析師的驗證流程：

CTI report
   ↓
先抽出可驗證的 threat claim
   ↓
到 CTI 專用語料中找相關證據
   ↓
如果證據不夠，再做下一輪檢索
   ↓
最後根據 claim 與 evidence 做推理
   ↓
輸出 credible / incredible / NEI 與理由

這樣的設計和傳統 classification 最大的不同，是它把「證據是否足夠」本身也納入模型流程，而不是強迫系統在證據不足時仍然做出二元判斷。

LRCTI 架構概觀

作者提出的系統叫做 LRCTI，主要由三個模組組成：

Text Summarization Module
Multi-Step Evidence Retrieval Module
Text Reasoning Module

輸入是一篇原始 CTI report；輸出則包含：

可信度標籤
解釋文字

文中定義的輸出標籤實際上有兩個層次：

最終可信度判斷：credible / incredible
檢索與推理過程中的中間狀態：NEI（Not Enough Information）

NEI 很重要，因為它不是最終答案，而是系統知道自己「證據不夠」，因此應該繼續做 retrieval 的觸發訊號。

第一步：Text Summarization Module

作者認為，原始 CTI 報告通常太長、太雜，若直接整篇拿來做檢索與推理，不只效率差，也容易讓 irrelevant information 汙染整個 verification 流程。因此第一步先做 claim summarisation，把冗長報告壓縮成簡潔、可驗證的陳述。

這個 summarisation module 並不是完全黑箱。文中明確定義了 sentence selection 的方式。給定文件的句子集合：

S = {s_i}_{i=1}^N

每個句子的權重由三部分構成：

句子與整份文件的 ROUGE1-F1 相似度
句子位置權重 p(s_i)
句子與其他句子的語意相似性 q(s_i)

最後的打分函數為：

w(s_i) = ROUGE1-F1(s_i, S) + α · p(s_i) + β · q(s_i)

其中：

α 與 β 是控制不同因素權重的超參數

分數最高的 top-m 句子會形成子集 R，再透過 prompt engineering 組成查詢 P(R)，交給 LLM 生成摘要：

C = L(P(R))

這個設計其實很值得注意。作者沒有直接把整篇報告丟給 LLM 做 abstractive summarisation，而是先用 sentence scoring 過濾掉大量雜訊，再讓 LLM 對高價值句子做 summary。這樣做的好處包括：

減少輸入長度與干擾
保留更高密度的威脅訊號
避免完全依賴 LLM 自行判斷哪些句子重要

第二步：Multi-Step Evidence Retrieval Module

這篇論文最核心的貢獻，在於它的 multi-step retrieval 設計。作者認為，一般單步檢索有兩個主要問題：

一次檢索常抓到片段化、語義不對齊的證據
若第一次抓錯，後續推理就建立在錯誤證據上

因此 LRCTI 改採多步驟證據檢索，包含三個關鍵環節：

paragraph retrieval
key evidence selection
re-retrieval

2.1 Paragraph Retrieval

系統先從 CTI domain corpus 中，針對 claim C 檢索 top-k 段落：

P = R(C, 𝒫, k) = Top-k_{p ∈ 𝒫} r(C, p)

其中：

R 是 retriever
r(C, p) 是 claim 與 paragraph 的相似度分數

作者指出，dense retriever 雖然常用，但由於 dual encoder 架構難以充分處理 token-level interaction，因此在精細語義排序上仍有限制。

2.2 Progressive Paragraph Selection

為了彌補單純 dense retrieval 的不足，作者引入 progressive selection。它的概念是：

先取得目前 paragraph set P
再透過滑動窗口加入新候選段落 P*c
從 P ∪ P*c 中，由 LLM 再選出 top-k 最相關段落

這個步驟的目的，是用 LLM 做更細的 paragraph-level filtering，逐輪更新證據候選集，而不是完全依賴初次檢索結果。

這種設計可以理解為：

retriever 先做粗篩
LLM 再做語義細篩

比起傳統一次性 re-ranking，作者的方法會直接輸出新的 paragraph set，而不只是重排清單。

2.3 Key Evidence Selection

在 paragraph-level 篩選之後，系統還會進一步做 sentence-level semantic matching，挑出最 relevant 的句子形成最終 evidence set：

E_s = {E_1, E_2, E_3, ..., E_j}

這代表 LRCTI 的證據不是直接拿整段，而是從已縮小範圍的 paragraphs 中，再做 finer-grained evidence selection。這對 NLI 模組來說很重要，因為推理若吃到太多冗餘段落，容易降低判斷品質。

2.4 Re-retrieval 機制

如果目前證據不夠，系統不會硬做結論，而是啟動 re-retrieval。文中指出三種觸發條件：

irrelevant evidence：目前找到的證據和 claim 其實不相關
insufficient support：證據量或證據內容不足以支撐結論
low confidence：模型對目前判定缺乏足夠信心

形式上，系統會產生：

ẑ, R_e, λ = L(C, E_s, P)

其中：

ẑ ∈ {credible, incredible, NEI}
R_e 是 explanation
λ 是 confidence score

當：

ẑ = NEI
或 λ < θ

就啟動下一輪 retrieval。這樣的設計等於把「證據不足」視為一個合理中間狀態，而不是誤判成 credible / incredible。

第三步：Text Reasoning Module

當 evidence set 準備好後，系統會進入最後的 reasoning 階段。這部分本質上是 prompt-based Natural Language Inference（NLI）。

也就是說，系統會把：

claim
retrieved evidence

一起餵給 LLM，要求它判定 evidence 與 claim 間的語義關係，並輸出：

credible
incredible
NEI

同時還要生成 human-readable justification。

這裡的關鍵價值在於：它不是只輸出 label，而是要輸出 reasoning explanation，提升 analyst 可理解性。這就是作者一直強調的 interpretability 來源。

Confidence 調整與 overconfidence 問題

作者也注意到一個很實際的問題：LLM 常常過度自信。即使答案錯，它也可能給出很高的 confidence。因此論文引入一個 overconfidence correction factor：

λ = θ × Conf

其中：

Conf 是 LLM 原始輸出的 confidence
θ ∈ [0,1] 是校正因子
λ 是最終調整後信心分數

若 λ < 0.5，系統就自動觸發下一輪 retrieval 與 reasoning。

這個設計雖然簡單，但很實用。因為它把 LLM 的自我評估結果轉化成流程控制訊號，而不是直接無條件相信模型的自信程度。

語料庫建構

LRCTI 的另一個重點，是它不是依賴開放世界的通用語料如 Wikipedia，而是建立了 CTI domain-specific corpus。文中提到，語料來源包括：

ATT&CK framework
Wikipedia
知名安全部落格

整個 corpus construction 流程包括：

web scraping
data cleaning
manual verification and annotation
deduplication
merging 同一事件的多份報告

這點很重要，因為多步驟檢索的前提就是 evidence pool 必須盡量 domain-relevant。若證據庫本身太泛，retrieval loop 再聰明也會被噪音拖垮。

實驗結果

根據摘要與前文描述，作者在兩個 benchmark 上驗證 LRCTI：

CTI-200
PolitiFact

結果顯示，相較 state-of-the-art baselines，LRCTI 在：

F1-Macro 提升超過 5%
F1-Micro 提升超過 5%

而最終成績達到：

F1-Macro = 90.9%
F1-Micro = 93.6%

這組數字顯示，作者的方法不只是概念上比較漂亮，而是確實在 benchmark 上打敗既有方法。

和 KGV 相比，這篇論文做了什麼不同？

如果把 LRCTI 和前面那篇 KGV 放在一起看，差別會很清楚：

KGV 強調用 paragraph-level semantic graph 做 verification
LRCTI 則強調 multi-step retrieval + NLI reasoning

也就是說：

KGV 比較像是以圖結構輔助語義驗證
LRCTI 則更接近「先找證據、再逐步推理」的 analyst workflow

LRCTI 的特色，在於它顯式地把「證據不夠就繼續找」做成系統流程，而不是只在單輪證據上做判斷。這使它在 interpretability 與流程合理性上，比很多 one-shot verification 模型更接近真實分析工作。

這篇論文的意義

這篇研究最值得注意的地方，不只是分數提升，而是它重新定義了 CTI credibility verification 的方法論：

不是一次分類
不是只依賴靜態特徵
而是 evidence-grounded、iterative、interpretable 的 verification process

這種想法其實比單純用更大的模型更重要。因為在真實 CTI 場景裡，分析師最需要的往往不是一個黑箱答案，而是：

你為什麼覺得它可信？
你根據什麼證據？
如果證據不夠，你有沒有再找？

LRCTI 正是在回答這些問題。

重點整理

這篇論文提出 LRCTI，一套用於 CTI credibility verification 的 LLM-based multi-step framework。
整體流程分成三部分：claim summarisation、multi-step evidence retrieval、prompt-based NLI reasoning。
summarisation module 不是純黑箱，先對句子計分，再選 top-m 句子給 LLM 生成摘要。
retrieval module 包含 paragraph retrieval、progressive paragraph selection、sentence-level evidence selection 與 re-retrieval。
若 evidence 不足或 confidence 太低，系統會輸出 NEI 並觸發下一輪 retrieval。
作者用 overconfidence correction factor 修正 LLM confidence，避免模型過度自信。
在 CTI-200 與 PolitiFact 上，LRCTI 的 F1-Macro / F1-Micro 均比 SOTA baselines 提升超過 5%，達到 90.9% 與 93.6%。

Takeaway

這篇論文最值得記住的一點，是它把 CTI credibility verification 從「黑箱分類」推向了「多步驟找證據、逐輪檢查、最後再下判斷」的流程。這不只是模型效能的提升，而是任務建模方式的進步。

對研究者來說，LRCTI 的價值在於它證明：LLM 在 CTI 驗證任務中的最佳角色，不只是做最終分類，而是作為 claim condensation、evidence orchestration 與 NLI reasoning 的核心協調器。 對實務團隊來說，這也更接近真正可信的自動化分析流程，因為它不只給答案，還試圖給出答案背後的證據與理由。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

LRCTI 論文閱讀分析：用多步驟檢索與推理驗證 CTI 可信度

論文基本資訊

研究問題

核心想法：讓模型模仿人類分析師的驗證流程

LRCTI 架構概觀

第一步：Text Summarization Module

第二步：Multi-Step Evidence Retrieval Module

2.1 Paragraph Retrieval

2.2 Progressive Paragraph Selection

2.3 Key Evidence Selection

2.4 Re-retrieval 機制

第三步：Text Reasoning Module

Confidence 調整與 overconfidence 問題

語料庫建構

實驗結果

和 KGV 相比，這篇論文做了什麼不同？

這篇論文的意義

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題

核心想法：讓模型模仿人類分析師的驗證流程

LRCTI 架構概觀

第一步：Text Summarization Module

第二步：Multi-Step Evidence Retrieval Module

2.1 Paragraph Retrieval

2.2 Progressive Paragraph Selection

2.3 Key Evidence Selection

2.4 Re-retrieval 機制

第三步：Text Reasoning Module

Confidence 調整與 overconfidence 問題

語料庫建構

實驗結果

和 KGV 相比，這篇論文做了什麼不同？

這篇論文的意義

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

RAGRecon 論文閱讀分析：用 RAG 與知識圖譜打造可解釋的威脅情報系統

論文閱讀分析：Large Language Models for Explainable Threat Intelligence

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆