Knowledge Graph＋LLM 論文閱讀分析：當威脅偵測真正卡住時，問題常常不是模型不夠大，而是異常關係、少數樣本與人能不能看懂根本沒接起來

by Mastiporuto Senia

2026 年 4 月 10 日

本文由 AI 產生、整理與撰寫。

論文基本資訊

論文標題：Improving Network Threat Detection by Knowledge Graph, Large Language Model, and Imbalanced Learning
作者：Lili Zhang、Quanyan Zhu、Herman Ray、Ying Xie
年份：2025
來源：arXiv 2501.16393
連結：https://arxiv.org/abs/2501.16393

先講結論：這篇 paper 在做什麼？

這篇論文想解的問題很實務：當網路威脅偵測面對的是極少數真正攻擊、極大量正常行為、再加上一堆彼此纏在一起的使用者活動時，怎麼把「圖結構理解」、「少數類別學習」與「人能看懂的解釋」放進同一條偵測鏈？

作者的答案不是只再堆一個分類器，而是把三種東西接在一起：

Knowledge Graph：用來表達使用者、裝置、事件與關係，觀察行為模式變化
Imbalanced Learning：用來處理威脅樣本極少、正常樣本極多的安全資料失衡問題
LLM：不是直接拿來判威脅，而是拿來查詢、整理解釋與把結果轉成人話

如果把這篇濃縮成一句話，就是：

它真正想證明的，不是 LLM 自己多會抓威脅，而是當你先用圖結構和失衡學習把訊號整理好，再讓 LLM 站在上層做檢索與解釋，威脅偵測才比較有機會同時兼顧命中率與可理解性。

一、這篇為什麼值得看？

很多資安 AI paper 的問題，是把威脅偵測想得太像一般分類任務：丟特徵、訓模型、比 accuracy。但真實安全場景通常剛好卡在三件事：

攻擊是少數事件，資料極度不平衡
攻擊不是孤立點，而是存在於使用者、主機、檔案、連線、時間序列的關係裡
分析師不能只看分數，還得知道為什麼被判高風險

這篇 paper 的價值就在於，它不是只碰到其中一題，而是正面去接這三個痛點。Knowledge Graph 負責表達關係與變化，Imbalanced Learning 負責把少數威脅別再被多數正常樣本淹掉，LLM 則負責把圖與模型的結果拉回 analyst 可用的敘事層。

二、作者的方法主體：三個 agent，不是三個各做各的模組

作者把整套系統描述成一個 multi-agent AI framework，裡面有三個角色：

Collaborator 1：維護動態 Knowledge Graph，把新事件持續加進圖中
Collaborator 2：訓練與套用 weighted classifier，估計哪些節點或事件更像 threat
Supervisor：接 analyst 問題，轉成圖查詢、取回模型分數，再用 LLM 生成人類可讀解釋

這個設計其實滿合理。因為安全分析常常不是一個模型單打獨鬥，而是：

先從事件流與關係圖裡找異常
再用分類器給風險訊號
最後還要有人能把整段脈絡說清楚

LLM 在這裡扮演的不是底層 detector，而比較像上層的 query-and-reasoning interface。這點我覺得是對的，因為把 LLM 直接當一線 threat detector，往往只會放大 hallucination 與不穩定；但把它放在「查、問、解釋、彙整」這層，反而比較接近它目前真的有價值的位置。

三、Knowledge Graph 在這篇裡到底做了什麼？

這篇 paper 不是把圖當花瓶。Knowledge Graph 在這裡的核心功能，是把使用者活動用關係結構表示出來，例如：

使用者與裝置的互動
登入、檔案存取、郵件等行為
不同時間點之間的活動變化

作者特別看重的是行為模式變化。也就是說，系統不只是在看「這個事件像不像壞事」，而是在看「這個人最近的活動圖，跟他過去相比是不是突然長得不一樣」。

這點很重要，因為很多安全異常不是某個單點事件本身多可疑，而是它放進關係與時間脈絡後，才看得出不對勁。

四、它怎麼量「行為突然變了」？

作者使用了weighted Jaccard similarity 去比較不同時間點的圖。直觀上，你可以把它理解成：

如果今天的使用者活動圖和昨天差不多，分數就接近 1；如果突然冒出很多新邊、關係權重明顯改變，分數就會下降，而這個下降本身就是異常訊號。

我喜歡這個設計的原因，是它沒有假裝能把所有未知威脅都學進分類器，而是承認一件事：unknown threat 很可能根本沒有標註樣本可學，那就應該讓結構變化本身成為偵測訊號。

所以這篇不是只做 supervised detection，而是把：

已知威脅的學習訊號
未知威脅的圖異常訊號

一起放進同一套框架裡。這比單純追求某個分類分數，明顯更貼近安全現場。

五、Imbalanced Learning 在這篇裡不是配角

安全資料的老問題之一，就是攻擊樣本往往不到 1%。如果你還用一般學習目標去訓模型，最後很容易得到一個看起來 accuracy 很高、但其實幾乎只會判 benign 的系統。

作者因此在 Collaborator 2 這一層用了 weighted logistic regression。威脅樣本被賦予較高權重，讓模型在學習時更在意少數類別。更有意思的是，這個分類器不只是單純打分，還會反過來幫助圖：

高風險節點／事件會被提高權重
低風險訊號可能被剪枝
圖因此逐漸聚焦在更值得分析的部分

也就是說，這裡不是「圖一套、模型一套、彼此無關」，而是讓分類器去重塑圖的注意力分配。這做法雖然樸素，但概念上其實滿對：安全分析資源有限，本來就該把圖上的注意力推向更可能出事的位置。

六、LLM 真正的角色：查詢、整合、翻譯

這篇 paper 最值得肯定的地方之一，是它沒有把 LLM 神化成萬能 detector。作者明確把它放在：

把 analyst 的自然語言問題轉成查詢
向圖與分類器取回結果
把結果整理成可讀的解釋

例如使用者問：

「最近有哪些使用者行為看起來可疑？」

Supervisor agent 就可以去要求圖列出可疑子圖、要求分類器回報風險分數，最後生成像是：

某位使用者近期檔案存取模式與過去相比異常
某裝置與伺服器的新連線不符合歷史行為
這些變化在圖相似度與分類分數上都同步升高風險

這就是我前面說的：LLM 在資安裡最穩的價值，常常不是替你做底層偵測，而是把多個偵測訊號變成能被人消化的分析語言。

七、資料集與結果：提升不算爆炸，但方向是對的

作者使用的是 CERT Insider Threat Test Dataset，這是做內部威脅與使用者行為分析時常見的公開資料。論文給出的結果不是那種誇張到不真實的數字，而是比較克制：

threat capture rate 提升約 3%–4%
額外提供自然語言解釋，讓風險預測更容易被分析師理解

老實說，3%–4% 聽起來不大，但在威脅偵測這種高不平衡場景裡，如果這個提升是來自更好的訊號整合，而且沒有把結果變得更黑箱，反而是有意義的。 真正重要的不是只多抓幾個點，而是系統同時補上「為什麼可疑」這條線。

八、我怎麼看這篇：它不像 flashy paper，但很像正確方向

這篇論文不屬於那種會讓人一眼驚呼「模型超神」的 paper。它比較像是在提醒大家：

安全問題不是純文本推理題
也不是只要把 log 全塞給 LLM 就會 magically 變好
真正有價值的是把結構化關係、少數類別學習、自然語言解釋接成一條可運作的鏈

從這個角度看，我覺得它其實比很多只在 agent benchmark 上刷分的 paper 更踏實。它沒有把 LLM 當主角，而是把 LLM 放到它比較擅長的位置，這本身就是一種成熟。

九、這篇也有幾個要保留的地方

第一，資料集是 CERT insider threat。 這代表結果更偏使用者活動／內部威脅脈絡，不能直接外推到所有網路威脅場景。
第二，結果目前是 preliminary。 論文自己也把它定位成 poster/demo，代表還不是超完整的大規模驗證。
第三，3%–4% 的提升需要看 operational cost。 若導入圖維護、分類器、LLM 解釋層的成本很高，實務 ROI 還要再算。
第四，LLM 的解釋品質與穩定性仍可能波動。 若沒有嚴格約束，解釋層依然可能把合理訊號包裝成過度自信敘事。

所以我不會把它看成「下一代 SOC 已經完成」，而是看成一個很典型、也很合理的中介型架構：底層仍靠圖與統計學習抓訊號，上層再讓 LLM 提供檢索與解釋能力。

十、對 sectools.tw 這條研究線來說，它補上了哪塊拼圖？

如果把最近這批文章放一起看，這篇剛好補在一個很有意思的位置：

CTI / KG 類文章在談怎麼把非結構化威脅知識變成可計算表示
SOC / IR 類文章在談怎麼讓模型理解事件與輔助分析
這篇則更進一步把「圖結構異常」「類別失衡」「自然語言解釋」串成同一條威脅偵測流程

它的主軸不是純 CTI，也不是純 Agent Security，而是更偏向：如何讓 AI 在安全偵測裡既有結構理解，也有 analyst-facing explainability。

總結

Improving Network Threat Detection by Knowledge Graph, Large Language Model, and Imbalanced Learning 不是一篇靠炫技取勝的 paper，但它很清楚地指出一件事：

安全偵測真正缺的，常常不是再找一個更會猜的模型，而是先把關係結構、少數威脅訊號與可解釋分析接起來，讓系統不只會抓，也能說清楚自己為什麼抓。

如果你關心的是 Knowledge Graph、LLM 在安全場景中的正確落點、少數類別威脅偵測，或 analyst-friendly 的 explainable detection workflow，這篇值得看。它不會讓你對 AI 產生過度幻想，但會讓你更清楚知道一條比較穩的落地路線長什麼樣。

免責聲明

本文由 AI 產生、整理與撰寫。內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要；儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

Knowledge Graph＋LLM 論文閱讀分析：當威脅偵測真正卡住時，問題常常不是模型不夠大，而是異常關係、少數樣本與人能不能看懂根本沒接起來

論文基本資訊

先講結論：這篇 paper 在做什麼？

一、這篇為什麼值得看？

二、作者的方法主體：三個 agent，不是三個各做各的模組

三、Knowledge Graph 在這篇裡到底做了什麼？

四、它怎麼量「行為突然變了」？

五、Imbalanced Learning 在這篇裡不是配角

六、LLM 真正的角色：查詢、整合、翻譯

七、資料集與結果：提升不算爆炸，但方向是對的

八、我怎麼看這篇：它不像 flashy paper，但很像正確方向

九、這篇也有幾個要保留的地方

十、對 sectools.tw 這條研究線來說，它補上了哪塊拼圖？

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

先講結論：這篇 paper 在做什麼？

一、這篇為什麼值得看？

二、作者的方法主體：三個 agent，不是三個各做各的模組

三、Knowledge Graph 在這篇裡到底做了什麼？

四、它怎麼量「行為突然變了」？

五、Imbalanced Learning 在這篇裡不是配角

六、LLM 真正的角色：查詢、整合、翻譯

七、資料集與結果：提升不算爆炸，但方向是對的

八、我怎麼看這篇：它不像 flashy paper，但很像正確方向

九、這篇也有幾個要保留的地方

十、對 sectools.tw 這條研究線來說，它補上了哪塊拼圖？

總結

免責聲明

發佈留言 取消回覆

You may also like

TechniqueRAG 論文閱讀分析：用 RAG 與大型語言模型標註 CTI 中的 ATT&CK 技術

Agentic AI 攻擊面 SoK 論文閱讀分析：真正危險的不是某句 prompt，而是整條會自己動起來的信任鏈

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆