CyLens 論文閱讀分析：Agentic LLM 如何重塑 Cyber Threat Intelligence

2026 年 4 月 6 日

論文基本資訊

論文標題：CyLens: Towards Reinventing Cyber Threat Intelligence in the Paradigm of Agentic Large Language Models
作者：Xiaoqun Liu、Jiacheng Liang、Qiben Yan、Jiyong Jang、Sicheng Mao、Muchao Ye、Jinyuan Jia、Zhaohan Xi
年份：2025
來源：arXiv:2502.20791v2
論文連結：https://arxiv.org/abs/2502.20791
主題：CTI、Agentic LLM、Threat Attribution、Threat Contextualization、Prioritization、Remediation

這篇 CyLens 想做的事情很直接，而且野心很大：把 Cyber Threat Intelligence 變成一個由 agentic LLM 驅動、能覆蓋完整威脅分析生命週期的系統。作者不是只做單一任務，例如 APT attribution 或 CVE 分類，而是把 CTI 工作拆成五大任務：attribution、contextualization、correlation、prioritization、remediation，試圖讓同一個框架同時支援從辨識威脅來源到提出修補建議的完整流程。

這個企圖其實很合理。真實世界的 CTI 工作不會停在「這像誰做的」；分析師還得回答：受影響系統是什麼、有哪些基礎設施、關聯哪些 CVE/CWE、風險優先度多高、以及現在應該怎麼修。CyLens 的核心價值就在於，作者把這些原本分散的工作視為同一個 cascade workflow，而不是各做各的 point solution。

這篇論文想解決什麼問題？

作者指出兩個核心痛點：

Scalability：威脅知識暴增，像 MITRE-CVE、NVD 這些資料庫持續膨脹，分析師很難手動吸收與交叉比對。
Adaptability：傳統 CTI 工具或規則系統很難快速客製到不同產品、廠商、威脅類別與新興攻擊事件。

因此作者的主張是：CTI 不只是需要更大的知識庫，而是需要一個能把大量歷史威脅知識內化、又能在推理時根據任務動態調度分析模組的 agentic LLM 系統。

CyLens 的任務範圍：五大 CTI 工作

論文把 CTI 任務整理成五個面向：

Attribution：辨識 threat actor、TTP、campaign
Contextualization：補充 affected systems、attack infrastructure、impact
Correlation：關聯 CVE、CWE 與相關威脅活動
Prioritization：分析 CVSS severity 與 EPSS exploitation dynamics
Remediation：提出 patch tool、code patch、mitigation、advisory

這個設計最重要的地方，不只是分類得完整，而是它明確定義了任務依賴關係。例如 prioritization 並不是憑空生成，而是建立在 attribution、contextualization、correlation 之後；remediation 則再進一步依賴前面所有分析。這讓 CyLens 不只是把 prompt 寫長，而是把 CTI workflow 結構化。

模型家族與訓練規模

CyLens 不是單一模型，而是一個 family：

CyLens-1B：基於 Llama-3.2-1B
CyLens-8B：基於 Llama-3.1-8B
CyLens-70B：基於 Llama-3.3-70B

作者用 271,570 份 threat reports 進行 CTI knowledge infusion。對應訓練量大致為：

CyLens-1B：28K corpus、0.27B tokens
CyLens-8B：115K corpus、1.1B tokens
CyLens-70B：271K corpus、2.5B tokens

這裡的重點不是單純把模型做大，而是作者很強調：domain-specific customization 比盲目擴大參數更重要。後面的實驗結果也確實反覆支持這件事。

Threat Corpus 怎麼建？

CyLens 的知識來源是 CVE-centered threat corpus。作者從多個資料庫蒐集 metadata，包括：

MITRE-CVE
NVD
Exploit-DB
CWE
CAPEC
MITRE ATT&CK
以及 Oracle、Red Hat Bugzilla、Adobe Security Bulletin、Apache Mailing List 等第三方報告來源

論文不是把原始欄位直接餵模型，而是先生成 CVE-centric threat reports。這個 corpus generation 其實很講究，作者用了三件事來提升多樣性與品質：

In-context learning：參考 Microsoft、Cisco、CISA、Europol、ENISA 等報告格式做 1-shot 風格引導
Multi-agent generation：用不同 LLM 生成與修訂 threat reports，降低單一模型偏差
Output sampling：調整 temperature / top-p，讓輸出既多樣又不失真

論文甚至明列生成時會從 GPT-4o、GPT-o1、Gemini-Pro、Pixtral-Large、DeepSeek-R1、Llama-3.1-405B 中隨機選模型做生成與 revision。這種做法的目的很清楚：讓訓練資料保有多樣語氣、布局與敘事風格，避免模型只學到單一路徑。

核心方法一：Curriculum Training

CyLens 的第一個技術重點，是把 CTI knowledge infusion 做成 curriculum training，而不是直接把所有 threat reports 打散亂訓。作者把語料按時間先後與報告長度排序：先從較舊、較短的 threat reports 開始，再逐步推進到更新、更長、更複雜的文件。

論文定義 pacing function：

Pace(D, t)
= D[: |D| · t / T1],                t ≤ T1
= D,                                T1 < t ≤ T2
= D ∪ D[β · |D| · (t - T2)/(T - T2):],  t > T2

意思可以拆成三段：

Linear Start：前期逐步增加可見語料比例
Plateau：中段使用整個 corpus 訓練
Reinforced End：末段再強化最新威脅資料，補 emerging threats

這個設計的直覺很合理。CTI 不是一般知識問答，時間性很重要；越新的 threat data，越可能和現實攻擊面接近。作者希望模型既學到歷史知識，也不要在收尾時忘掉新威脅。

其訓練目標則沿用 causal language modeling，並加入正則項保留原始 base LLM 的一般語言與推理能力：

ℓ_CLM(θ, D) = - E_{d~D} [ Σ log p_θ(x_j | x_<j) ] + λ ||θ - θ0||²

這裡的關鍵訊息是：CyLens 不是純粹覆寫 base model，而是在保留通用能力的前提下，把 CTI 知識大量灌進去。

核心方法二：Instruction Tuning with Cascading Reasoning

第二個重點，是 instruction tuning 不是單點問答，而是依照 CTI 任務依賴關係設計成 cascading reasoning。換句話說，模型不只是回答使用者問題，而是被引導先判定這個問題屬於哪個 CTI task、需要哪些前置分析，再依序產出中間證據與最後結論。

作者甚至在論文裡給了 system prompt 式樣，要求模型：

先 resolve task dependencies
再啟動對應 NLP modules
最後輸出 structured threat intelligence analysis

這代表 CyLens 的推理流程不是單純 chain-of-thought，而是有明確工作流與模組責任分配的 CTI reasoning pipeline。

核心方法三：六個 NLP Modules

CyLens 在 inference 階段使用六個專門模組：

TOM：Topic Modeling
NER：Named Entity Recognition
REL：Relation Extraction
RAG：Retrieval-Augmented Generation（含 web resources）
REA：Reasoning
SUM：Summarization

其中前四個偏向蒐集和整理證據，後兩個偏向把證據接起來並生成 analyst 可讀結論。作者還特別說明：因為各任務有依賴關係，所以在推理時會先並行執行 topic modeling、NER、relation extraction、RAG，再按照任務鏈順序做 reasoning 與 summarization，以兼顧延遲與結構化推理。

這種設計其實比很多「RAG + LLM 就叫 agent」的做法紮實得多。CyLens 把每個分析步驟的功能講清楚，也讓後面的 ablation study 可以真正驗證各模組價值。

實驗設計：同時看歷史威脅與 zero-day 威脅

論文在評估上做得相對完整。它不是只在 historical threats 上測，而是把威脅分成：

Historical Threats：已有記錄的歷史威脅
Zero-Day Threats：新興、尚未完整記錄的威脅

這個切法很關鍵，因為只在歷史案例上做高分並不稀奇；真正有價值的是，模型遇到新威脅時是否仍能維持可用表現。

比較對象則包含兩類：

資安專用模型 / agent：SevenLLM、Lily-Cyber
通用大型模型：ChatGPT-4o、ChatGPT-o1、Gemini-Pro、Llama-405B、DeepSeek-R1、Claude-Opus

結果一：Threat Attribution 上，專門化真的有差

在 attribution 任務，作者直接下了第一個研究結論 RF1：specialized development is necessary。

文中舉的代表數字很有說服力：

ChatGPT-4o 在 threat actor attribution accuracy 只有 40.31%
CyLens-1B 已達 79.52%
CyLens-8B 進一步到 83.74%

這個差距說明了一件事：CTI 不是「模型夠大就會了」的任務。威脅行為、惡意家族、APT 命名、攻擊活動描述都帶有很重的領域語境；沒有經過專門知識灌注與任務調校，通用模型很容易講得流暢，但答得不準。

作者還指出一個很有意思的現象：CyLens-8B 在 TTP attribution 的 recall 為 93.74%，反而高於 CyLens-70B 的 88.26%。這直接支持 RF2：大模型尺寸不一定更有效。

結果二：Contextualization 上，大模型反而容易太囉唆

在 contextualization 任務，作者發現較大的模型常有一個很實際的問題：過度冗長。

例如在 threat impact 生成上：

CyLens-8B 的 historical-threat BERTScore 為 90.03
CyLens-70B 則是 87.33

論文的 case study 很精彩。CyLens-8B 會用精準且貼近原始參考的方式描述 Lazarus 對 Ronin Network 的攻擊；CyLens-70B 雖然也沒錯，但會加入像「notorious」「audacious」「staggering」這種帶情緒的修飾詞，變得像在寫媒體稿，不像分析報告。

這個觀察對 CTI 實務很重要：分析報告不是文筆比賽，verbosity 本身就是噪音。 對 analyst 來說，可核對、貼近證據、少廢話，通常比華麗描述更有價值。

結果三：Zero-day 不一定總是更難

CyLens 論文有一個值得記下來的細節：作者發現 zero-day threat hunting 不一定在所有任務都更難。

例如 impact analysis 這類任務，有些 zero-day 事件若在模式上和已知威脅相近，模型反而能靠既有知識做出還不錯的 contextual reasoning；但像 threat actor、affected systems、attack infrastructure 這類需要具體識別的任務，zero-day 通常還是更棘手，因為會出現新的產品、新惡意程式名稱、新基礎設施。

這個結論很實務，不走神話路線。作者沒有把 zero-day 吹成一個統一難度標籤，而是明確指出：難度取決於任務型態。

結果四：Prioritization 不只做 CVSS，還碰 EPSS 動態

這篇論文的 prioritization 設計我覺得很加分，因為它不是只做靜態嚴重度分類，而是同時處理：

CVSS 3.x 八項 metrics + base severity
EPSS exploitation dynamics

在 CVSS 部分，作者指出基線模型在不同 metrics 上波動很大；例如 GPT-o1 在某些維度很高，但在另一些維度可能掉得很嚴重。相對地，CyLens-8B 在八個 CVSS metrics 上都能維持 85% 以上 accuracy，代表它對不同證據類型的整合比較穩定。

這一點在實務上非常重要。CVSS 不是單一標籤，而是多個 evidence dimension 的組合；若模型只能在某些欄位表現好，整體 prioritization 仍然會不可靠。

EPSS 部分更有意思。作者把問題分成：

Interpolation：回推歷史 EPSS 分數
Prediction：預測未來 EPSS 分數

結果顯示，大多數模型在 interpolation 會比 prediction 好，而一些本地模型因為缺乏動態上下文，在兩者都明顯較差。CyLens 則能做到接近 Gemini 這類 API-based 模型的水準，說明 domain expertise 對 exploitation trend 分析確實有幫助。

但作者也很誠實地指出，沒有真實世界脈絡時，模型依然無法準確預測某些 EPSS 劇烈變化。例如 CVE-2024-27956 在 2025/02/15 從 0.31% 暴衝到 55.37%，沒有模型能憑內部知識提前猜中。這也提醒我們：prioritization 最終仍需要 freshness 與外部事件感知。

結果五：Remediation 與 specialized adaptation

CyLens 不只做 broad CTI，還做 specialized adaptation，分別針對特定產品、vendor、category 進行 instruction tuning。這一段很有價值，因為它更接近企業現場需求：很多組織在意的不是「全世界所有威脅」，而是和自家產品面、供應鏈、產業垂直相關的威脅。

作者在 specialized setting 下發現：

CyLens-8B 在多種 specialized 任務仍維持高效果
針對 Adobe 類別的 remediation advisory 幾乎可到 100% accuracy
但若特定廠商或漏洞類別的歷史資料太少，零日修補建議仍會受限

論文舉了 Dell Open Redirection 相關案例，指出在歷史資料稀缺時，CyLens-8B 仍能給出相對合理的 remediation 建議，例如對 CVE-2025-21104 指出應重新配置 web server、強制嚴格解析與忽略異常 Host header 值，這與官方 advisory 的修補方向一致。

這一段說明了一個很重要的觀點：CTI LLM 的價值不只是知道答案，而是能把相近威脅模式遷移到資料稀少場景。

Ablation Study：哪些元件真的重要？

CyLens 做了相對完整的 ablation，拿掉：

re-training（RT）
fine-tuning（FT）
TOM
NER
REL
RAG

結果很清楚：

re-training 影響最大，因為它負責把大量 CTI 知識真正灌進模型
fine-tuning 也不能少，它負責把能力對齊到 CTI workflow
不同模組對不同任務的重要性不同

例如 CVSS severity classification 對 NER / REL 依賴較小；但 threat actor attribution 或 advisory suggestion 對辨識 malware、vendor、關聯對象很敏感，因此 NER / REL 一拿掉，表現就明顯受傷。這比起很多只做一張總分表的論文，可信度高不少，因為它真的回答了：系統裡哪些東西是裝飾，哪些東西是骨架。

這篇論文最值得記住的幾個觀察

觀察 1：CTI 是高度領域化任務，專門化模型可以用更小參數打贏超大型通用模型。
觀察 2：70B 不必然比 8B 更好；在 CTI 場景裡，準確、克制、結構化往往比更會寫更重要。
觀察 3：完整 CTI workflow 不能只做 retrieval 或只做 generation，而要把 task dependency 與模組化分析流程一起設計。
觀察 4：prioritization 不能只看 CVSS 靜態分級，還要考慮 EPSS 這種 exploitation dynamics。
觀察 5：specialized adaptation 對企業場景很關鍵，但資料稀缺仍是 hard limit。

我的總結

如果要用一句話概括這篇論文，我會說：CyLens 提供的不是一個單點模型，而是一個「如何把 LLM 變成 CTI 工作台」的藍圖。

它最強的地方，不是某一個數字特別誇張，而是整體設計很完整：有大規模 threat knowledge infusion、有 curriculum training、有 cascading reasoning、有六個 inference modules、有歷史與 zero-day 雙場景評估，也有 specialized adaptation 和 ablation。這讓它比很多「把 LLM 拿來做資安任務」的示範型論文更像一個可延展的系統設計。

當然，這篇論文也留下一些現實問題。例如 EPSS 的動態變化仍強烈依賴外部世界事件；remediation 在資料稀缺場景仍可能受限；而且這類系統若真的落地，還必須處理 freshness、資料污染、回溯可驗證性與維運成本。但整體而言，CyLens 是目前 CTI × agentic LLM 方向裡，少數把方法、任務鏈、評估與實務價值都講得相對完整的一篇。

對資安團隊、SOC、威脅研究員與想把 LLM 引入 CTI pipeline 的產品團隊來說，這篇很值得細讀。因為它真正回答的是：如果你不想只是做一個會聊天的資安助手，而是要做一個能沿著 CTI 生命週期工作、而且真的有分析骨架的系統，應該長什麼樣子。

CyLens 論文閱讀分析：Agentic LLM 如何重塑 Cyber Threat Intelligence

論文基本資訊

這篇論文想解決什麼問題？

CyLens 的任務範圍：五大 CTI 工作

模型家族與訓練規模

Threat Corpus 怎麼建？

核心方法一：Curriculum Training

核心方法二：Instruction Tuning with Cascading Reasoning

核心方法三：六個 NLP Modules

實驗設計：同時看歷史威脅與 zero-day 威脅

結果一：Threat Attribution 上，專門化真的有差

結果二：Contextualization 上，大模型反而容易太囉唆

結果三：Zero-day 不一定總是更難

結果四：Prioritization 不只做 CVSS，還碰 EPSS 動態

結果五：Remediation 與 specialized adaptation

Ablation Study：哪些元件真的重要？

這篇論文最值得記住的幾個觀察

我的總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

CyLens 的任務範圍：五大 CTI 工作

模型家族與訓練規模

Threat Corpus 怎麼建？

核心方法一：Curriculum Training

核心方法二：Instruction Tuning with Cascading Reasoning

核心方法三：六個 NLP Modules

實驗設計：同時看歷史威脅與 zero-day 威脅

結果一：Threat Attribution 上，專門化真的有差

結果二：Contextualization 上，大模型反而容易太囉唆

結果三：Zero-day 不一定總是更難

結果四：Prioritization 不只做 CVSS，還碰 EPSS 動態

結果五：Remediation 與 specialized adaptation

Ablation Study：哪些元件真的重要？

這篇論文最值得記住的幾個觀察

我的總結

發佈留言 取消回覆

You may also like

Atomic Decision Boundaries 論文閱讀分析：真正能保證 Agent 不在最後一刻越界的，不是事前多看一次，而是判斷和出手根本沒有縫

Cross-Session Threats 論文閱讀分析：很多 agent 真正缺的，不是更大的 context，而是別把碎片當安全

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆