SHIELD 論文閱讀分析：用大型語言模型做 APT 偵測與可解釋分析

2026 年 4 月 6 日

論文基本資訊

論文標題：SHIELD: APT Detection and Intelligent Explanation Using LLM
作者：Ben-Gurion University of the Negev 研究團隊（arXiv 版本未於摘要頁完整列出作者清單）
年份：2025
來源：arXiv:2502.02342v1
論文連結：https://arxiv.org/abs/2502.02342
主題：APT Detection、Provenance Graph、LLM、Anomaly Detection、Attack Explanation、SOC

這篇 SHIELD: APT Detection and Intelligent Explanation Using LLM 處理的不是一般「把 CTI 文件丟給 LLM 問答」那種問題，而是更接近防守現場的核心痛點：APT 往往潛伏時間長、活動稀疏、橫跨多個時間窗，而且現有的 provenance-based detection 雖然有偵測能力，卻經常因高誤報與低可解釋性把分析師拖垮。

作者提出的 SHIELD 想做兩件事，而且兩件事都很務實：

先把真正值得看的可疑事件群從大量系統事件裡萃出來
再讓 LLM 對這些事件群做脈絡化推理，輸出攻擊敘事與 kill chain 對應

換句話說，SHIELD 不把 LLM 當成直接吃原始日誌的萬能分類器，而是放在一個「統計異常偵測 → 圖分析 → 事件群聚 → LLM 推理 → 時間關聯追蹤」的管線後段。這個設計很合理，因為它同時回應了兩個現實：原始 logs 太雜，直接餵 LLM 不切實際；但只靠 anomaly score，又不夠讓 analyst 理解到底發生了什麼。

論文想解決的核心問題

作者點得很準，現有 APT 偵測方法主要有三個老問題：

規則式方法很依賴專家知識，對 zero-day 與行為變形不夠有韌性
異常偵測方法常因環境變動而飆高 false positive
既有告警往往缺乏可解釋性，分析師看到警報卻看不出攻擊故事

此外，APT 常常不是一個短時間內就完整出現的事件，而是會跨數小時、數天甚至更久，分散在不同主機、不同程序、不同存取行為之間。這意味著真正有用的系統不只要能抓異常，還得能跨時間窗把疑似攻擊鏈重新拼起來。

SHIELD 的整體架構

論文把 SHIELD 分成四個互相銜接的模組：

Deviation Analyzer
Graph Analyzer
LLM Analyzer
Temporal Correlation Engine

它們形成一個持續運作的偵測與調查迴圈。

1. Deviation Analyzer：先從系統日誌裡抓出異常

這一層使用 Local Outlier Factor (LOF) 做異常偵測。論文把每筆系統日誌表示成：

l_i = (p_i, n_i, e_i, o_i, d_i, t_i)

p_i：process identifier
n_i：process name
e_i：event type
o_i：object identifier
d_i：object data
t_i：timestamp

接著將類別欄位做數值化映射，並用像 <p_i, e_i, o_i> 這樣的結構作為 LOF 的輸入特徵，再進行標準化。異常判定形式為：

A(l_i) = 1, if LOF_k(l_i) > τ
         0, otherwise

其中：

τ：異常門檻，論文中設為 0.1
k：鄰居數

這一步的角色不是直接宣告「這就是攻擊」，而是先把大量背景噪音縮到較小的可疑事件集合。作者的觀點很實際：如果一開始不先過濾，後續的圖分析與 LLM 推理成本都會爆掉。

2. Graph Analyzer：把異常事件放回 provenance 關係圖

SHIELD 不停留在單點異常，而是把異常事件重新放回 provenance graph，看它和哪些 process、file、network object 有關聯。這一步的意義非常大，因為 APT 的可疑性很多時候不在單一事件，而在一串依賴關係與橫向關聯。

Graph Analyzer 在這裡做幾件事：

建立由異常程序與其 lineage 構成的圖
修剪明顯 benign 的節點與關係
將殘留的可疑節點以 community detection 做群聚

作者強調，這種做法能把原本龐大的事件流，壓縮成少數幾個「可疑活動社群」。這些社群比單一高分異常點更接近 analyst 真正在調查的單位。

3. LLM Analyzer：不是只判斷惡意，還要講出攻擊故事

這篇論文最有意思的地方，在於它把 LLM 放在解釋層而不只是分類層。當 Graph Analyzer 產出可疑社群後，LLM Analyzer 會對每個 cluster 做多階段推理，輸出：

這組事件是否像攻擊活動
可能對應哪些攻擊步驟
涉及哪些 IoC 或可疑程序
攻擊在 kill chain 中處於哪個階段
一段可讀的 attack narrative / explanation

這裡的價值很直接：傳統 anomaly detector 常只會丟給你一堆高分事件；SHIELD 則試圖把它轉成 analyst 看得懂的敘事，例如「某程序先建立可疑子程序，再存取敏感檔案，接著與外部位址通訊，可能對應到初始入侵、持久化與資料外傳路徑」。

這也是論文標題中的 Intelligent Explanation 真正所在。它不是做一般 XAI 式的 feature attribution，而是讓模型直接把安全事件寫成攻擊語義。

4. Temporal Correlation Engine：追長時間潛伏的 APT

單一視窗內的偵測還不夠，因為 APT 可能在今天留下一個弱訊號，隔兩天才補上 lateral movement 或 exfiltration。SHIELD 因此加入 temporal correlation engine，持續把新告警與歷史事件比對，透過confidence reinforcement 與 decay 管理懷疑分數。

作者的設計是：

Decay：若某些被標記的程序長期表現 benign，就降低信心，避免誤報一直堆積
Reinforcement：若後續時間窗又出現更多符合攻擊鏈的行為，就拉高信心，追蹤慢速發展的攻擊

這個設計其實非常對路。很多實務系統的問題不是「完全看不到攻擊」，而是每個時間片看起來都只有一點點不對勁，最後因為缺乏長期關聯而沒有被當成同一場攻擊。SHIELD 試圖補的，正是這個縫。

方法上的關鍵觀念

如果把 SHIELD 的方法論壓縮成一句話，我會這樣寫：

先用傳統安全分析把搜尋空間縮到可管理範圍，再讓 LLM 對濃縮後的可疑活動做高語義解釋。

這種做法比「把所有日誌直接送給 LLM」務實得多，原因包括：

大幅降低 token 成本
降低 LLM 對噪音資料的敏感度
減少 hallucination 風險
保留 provenance graph 原本很擅長的因果/依賴結構

也就是說，SHIELD 不是用 LLM 取代傳統偵測，而是把它放在最有價值的位置：將複雜安全事件轉譯成人類可理解的攻擊語意。

資料集與實驗設計

作者用四組資料評估 SHIELD：

DARPA Eng. 3 CADETS
DARPA Eng. 3 THEIA
Public Arena dataset
自建 Blind Eagle（APT-C-36）資料集

其中 Blind Eagle 那組特別有意思，因為它不是教科書式的通用資料，而是明確對應一個真實世界長期活躍的 APT campaign。這讓 SHIELD 的評估比較不像單純在 benchmark 上刷分，而是更接近「這種方法拿去看真實攻擊有沒有意義」。

另外一個值得注意的設計是：作者只用每個資料集的 30% 做 training / baseline 建置。這是在對既有深度學習式 provenance detection 做一個隱性批判：很多方法仰賴大量訓練資料與不太真實的切分方式，導致結果看起來很漂亮，但部署時容易崩。

主要結果

論文給出幾個很醒目的結果：

在 CADETS 上達到完美 precision
在各資料集上維持高 recall（約 0.93–1.00）
成功追蹤跨多日的攻擊活動
可輸出與 APT kill chain 對齊的詳細攻擊敘事

最具代表性的敘述，是作者提到在分析 CADETS 關鍵攻擊序列時：

SHIELD 找出 25 個 true positive events
且沒有 false positives
相較之下，baseline methods 產生了超過 4000 個 false events 需要 analyst 去看

如果這個數字在實務上站得住腳，那價值非常大。因為 SOC 團隊最缺的不是更多 alert，而是更少但更可信、而且更容易理解的 alert。

SHIELD 真正厲害的地方，不是偵測本身，而是「降噪後的可解釋性」

單看 precision / recall，SHIELD 已經不錯；但我認為它更重要的貢獻其實是下面這件事：

它把 provenance-based APT detection 從「產生異常點」推進到「產生可調查的攻擊故事」。

這很重要，因為現代 SOC 真正的瓶頸往往不只是 detection coverage，而是 analyst fatigue。即使系統有一定召回率，只要誤報太多、解釋太差，團隊最後還是會被淹沒。SHIELD 的設計明顯是往降低這個認知負擔前進。

這篇論文的幾個亮點

把 LLM 放在正確位置：不是直接替代偵測器，而是接在 anomaly + graph analysis 後面做高語義推理
重視時間延展性：不是只看單一短視窗，而是透過 temporal correlation 追蹤長期攻擊
兼顧 precision 與 interpretability：對 analyst 來說這比單純追求 recall 更接近實務需求
不依賴大型 task-specific training：論文強調使用 off-the-shelf LLM，而不是重新訓練龐大模型

限制與需要保留的地方

不過這篇論文也有幾個要冷靜看的點：

LLM explanation 品質高度依賴 prompt 與模型能力，不同模型是否穩定仍值得追問
作者主打低訓練依賴，但前段 anomaly detection 仍需要 baseline，部署到高度多變環境時是否穩定是問題
provenance data 本身取得成本不低，不是每個企業都能完整蒐集與維持這種資料品質
解釋是否真的可行動，還要看和既有 SIEM/SOAR/IR 流程如何整合

此外，論文很強調 LLM 可以減少 hallucination 風險，因為前面有過濾與圖分析，但這不代表 hallucination 就消失了。只要 explanation 會影響 analyst 判斷，後續最好還是要有證據鏈可回溯與輸出驗證機制。

和最近 CTI / AI 論文脈絡的關係

如果把這篇放進最近這批 sectools.tw 的 CTI / AI 論文脈絡，它的位置其實很清楚：

AURA 強調多代理與 attribution justification
Autonomous Incident Response 強調 CTI enrichment + response generation
SHIELD 則更往偵測與調查前線移動：從主機事件、provenance graph 與長時序活動中，抓出 APT 並給出解釋

也就是說，SHIELD 不在處理「報告怎麼讀」，而是在處理「攻擊怎麼被抓到、怎麼被說清楚」。這讓它很適合放在 CTI / AI 系列中段，作為從情報理解走向防禦運營的一篇。

重點整理

SHIELD 是一個結合 異常偵測、provenance graph 分析、LLM 推理、時間關聯引擎 的 APT 偵測框架。
系統先用 LOF 從系統日誌中找異常，再透過圖修剪與社群偵測形成可疑活動群。
LLM 不直接吃原始 logs，而是對濃縮後的可疑群做攻擊語義推理與 kill chain explanation。
Temporal correlation engine 透過 reinforcement + decay 追蹤跨多日的潛伏式攻擊。
實驗涵蓋 CADETS、THEIA、Public Arena 與 Blind Eagle / APT-C-36 資料集。
論文報告在多資料集上維持高 recall，且在 CADETS 關鍵序列上以極低誤報大幅優於 baseline。
這篇論文最有價值的地方，在於它把「APT detection」推進成「可解釋、可調查、能減少 analyst fatigue 的 APT detection」。

如果只用一句話總結這篇，我會說：SHIELD 的重點不是讓 LLM 取代偵測器，而是讓 LLM 把偵測器抓到的複雜異常，翻譯成安全團隊真的看得懂、也用得上的攻擊故事。

SHIELD 論文閱讀分析：用大型語言模型做 APT 偵測與可解釋分析

論文基本資訊

論文想解決的核心問題

SHIELD 的整體架構

1. Deviation Analyzer：先從系統日誌裡抓出異常

2. Graph Analyzer：把異常事件放回 provenance 關係圖

3. LLM Analyzer：不是只判斷惡意，還要講出攻擊故事

4. Temporal Correlation Engine：追長時間潛伏的 APT

方法上的關鍵觀念

資料集與實驗設計

主要結果

SHIELD 真正厲害的地方，不是偵測本身，而是「降噪後的可解釋性」

這篇論文的幾個亮點

限制與需要保留的地方

和最近 CTI / AI 論文脈絡的關係

重點整理

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

論文想解決的核心問題

SHIELD 的整體架構

1. Deviation Analyzer：先從系統日誌裡抓出異常

2. Graph Analyzer：把異常事件放回 provenance 關係圖

3. LLM Analyzer：不是只判斷惡意，還要講出攻擊故事

4. Temporal Correlation Engine：追長時間潛伏的 APT

方法上的關鍵觀念

資料集與實驗設計

主要結果

SHIELD 真正厲害的地方，不是偵測本身，而是「降噪後的可解釋性」

這篇論文的幾個亮點

限制與需要保留的地方

和最近 CTI / AI 論文脈絡的關係

重點整理

發佈留言 取消回覆

You may also like

論文閱讀分析｜Route to Rome Attack：當攻擊者不打模型本身，而是把你的 LLM Router 全部導去更貴的模型

CAN-QA 論文閱讀分析：很多車載偵測真正缺的，不是再多一個 classifier，而是先逼模型回答它到底看到了什麼

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆