論文閱讀分析｜Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

2026 年 4 月 6 日

論文基本資訊

論文標題：Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey
作者：Shuang Tian、Tao Zhang、Jiqiang Liu、Jiacheng Wang、Xuangou Wu、Xiaoqiang Zhu、Ruichen Zhang、Weiting Zhang、Zhenhui Yuan、Shiwen Mao、Dong In Kim
年份：2025
來源：arXiv:2504.15622v2
論文連結：https://arxiv.org/abs/2504.15622
主題：LLM、Cybersecurity Survey、CTI、Reconnaissance、Vulnerability Detection、SOC、Risk Analysis

這篇論文不是在做一個新的 CTI agent，也不是再丟一個「LLM 比 baseline 好幾個點」的實驗表。它做的事情比較像是把整個 LLM × Cybersecurity 研究地圖攤開來看：如果我們不只關心單一 task，而是從攻擊生命週期、CTI 工作流、部署場景與風險面一起看，LLM 到底已經能做什麼、還缺什麼、又有哪些地方其實被講得太早了。

對 sectools.tw 這批 CTI / AI 論文來說，這篇的價值不在「技術新奇」，而在框架感。前面我們已經看過 attribution、RAG、benchmark、reliability、poisoning defence 這些相對細分的題目；這篇 survey 則適合拿來回答一個更大的問題：這些點狀成果，放回整個資安實務後，位置到底在哪裡？

這篇 survey 的核心觀點是什麼？

作者主張，討論 LLM 在資安的角色，不能只看某個孤立任務，而要從攻擊—防禦生命週期去看。為此，他們把外部攻擊粗分成幾個階段：

Reconnaissance（偵察）
Foothold Establishment（建立立足點）
Lateral Movement（橫向移動）
Data Exfiltration（資料外洩）
Post-Exfiltration（外洩後活動）

然後再問：LLM 在這些階段裡，分別可以幫 defender 做哪些事？此外，作者另外把 CTI 拉出來當成重要補充，因為 CTI 本身既是 knowledge base，也是很多防禦決策的上游。

這個切法的好處是，它不會把資安講成一堆互不相干的 demo，而是把 LLM 放回真實 defensive workflow 裡看。這點我認為是這篇最有用的地方。

先講結論：LLM 在資安不是萬能腦，而是 workflow amplifier

如果把整篇 survey 壓成一句話，那就是：LLM 在資安裡最有價值的角色，不是單獨取代 analyst，而是把多個原本分散、繁瑣、需要大量語意理解的工作加速整合起來。

換句話說，LLM 最擅長的不是「憑空當神諭」，而是：

讀大量文字與上下文
把非結構化資訊整理成可操作輸出
在多步驟分析流程裡做推理、摘要、對照與說明
當 analyst、log、threat report、knowledge base 之間的語意介面

這也正好和我們前面追的幾篇論文互相呼應：不管是 AURA 這種多 agent attribution、CTIBench 這種能力評估、還是那些談 hallucination / poisoning / inconsistency 的論文，其實都在提醒同一件事：LLM 有價值，但價值通常來自它被嵌進系統，而不是被神化成系統本身。

Reconnaissance 階段：LLM 很適合抓語意型、分散型線索

在偵察階段，作者把攻擊分成幾類，包括對第三方來源的蒐集、對人的社交工程、以及對系統本身的掃描與探測。這裡他們整理的研究顯示，LLM 在兩種情境特別有用：

log / traffic / command context 的語意化分析
phishing、惡意頁面、social engineering 內容辨識

這很合理。偵察行為本來就常常零碎、低頻、偽裝性高，很多時候不是靠單一 signature 就能抓到，而是要看多個片段放在一起後有沒有形成可疑模式。LLM 在這種需要長距離脈絡理解的問題上，本來就比傳統 rule-based 方法更有彈性。

作者舉的一些例子包括：

把多變量網路流量轉成可讓 Transformer 理解的 token sequence，做 reconnaissance 行為辨識
利用多 agent / CoT 的 log analysis 框架分析外部攻擊
用 prompt-based 方法做 malicious URL / phishing email 判讀
甚至做成更像真的 honeypot，延緩攻擊者辨識

但這裡也有一個重要提醒：LLM 能幫你看懂更多東西，不代表它天生就更可靠。 在 reconnaissance 這類高噪音場景，false positive、過度解讀、與可重現性問題都還是很現實。

Foothold 階段：漏洞偵測、分析、修補，是目前最容易看到落地價值的區塊

到了 foothold establishment，作者觀察到 LLM 最密集的應用其實集中在：

漏洞偵測
漏洞分析
漏洞修補建議
漏洞與攻擊技術的映射

這一段很像把「程式碼安全」和「威脅脈絡理解」接起來。因為當 attacker 嘗試建立立足點時，防守方最需要做的事情，就是盡快知道哪裡有洞、洞的性質是什麼、被利用的可能性多高、修補會不會有副作用。

論文整理的例子中，有些方法會把 code property graph、control flow graph、graph neural network 等結構資訊接進 LLM，目的很明確：單靠文字模型去讀程式碼不夠穩，所以要讓它搭配更明確的結構表示。

這個趨勢其實很重要。它再次說明，在資安這種高精度場景裡，真正比較有前景的方向通常不是「純 LLM」，而是LLM + 結構化表示 + retrieval / graph / rules / external tools 的混合架構。

Lateral Movement 與更後段的防禦：研究有，但不如前面成熟

作者的一個關鍵觀察是：整體研究雖然很多，但分布其實很不平均。現在大多數工作集中在比較前段的偵察、漏洞分析、初始入侵防禦；而像 lateral movement、response、recovery 這些更後段、更需要高風險決策的環節，研究量明顯少很多。

這其實不意外。因為越往後走，問題越接近真實世界的 incident handling：

要處理更多跨系統證據
要面對更高的不確定性
一旦判斷錯誤，成本更高
輸出不只是分析，還可能牽動封鎖、隔離、修復等行動

所以如果你看到很多論文都在前段任務上表現亮眼，不代表 LLM 已經能平滑延伸到完整 incident response。這篇 survey 的態度算是相對克制，沒有把「局部可用」誇大成「全流程成熟」。這點我給好評。

CTI 在這篇裡的位置：不是附屬品，而是防禦鏈條的情報底座

對我們這個追蹤主題來說，最值得看的當然還是它怎麼放 CTI。作者把 CTI 視為整體防禦的重要 intelligence layer，並認為 LLM 在 CTI 裡的潛力，主要來自以下幾類工作：

threat report 摘要與整理
實體辨識、關係抽取、知識結構化
威脅情境問答與 analyst 輔助推理
把外部 threat intelligence 轉成更可操作的防禦知識

這個觀點和我們先前幾篇文章幾乎完全對上。無論是 CyLens、AURA、RAG 類 CTI 系統，還是各種 benchmark / reliability 研究，都在圍繞同一件事：CTI 最大的問題之一不是資料不存在，而是資料太散、太雜、太不一致，難以快速轉成可行動知識。

LLM 剛好擅長對付這種「非結構化但高語意密度」的材料，所以它在 CTI 會持續有吸引力。只是，吸引力不等於已成熟。這篇 survey 雖然比較概括，但至少沒有忽略 CTI 在整個資安防禦中的中樞位置。

作者也整理了 benchmark 與能力驗證研究

這篇論文沒有只談應用場景，也回顧了一批「LLM 到底有沒有那個底子」的 benchmark 研究。作者提到一些工作用資安選擇題、資訊抽取、摘要、分類、ICS 風險推理等任務來測試模型，整體結論大致是：

先進模型在某些資安知識與理解任務上，已經接近有經驗專家的表現
但一旦問題需要更穩定的 domain reasoning、更新知識、跨步驟證據整合，能力就會開始不穩
fine-tuning、instruction tuning、prompt engineering、domain pretraining 仍然非常重要

這裡最值得記住的不是「GPT 很強」，而是：資安不是一般語言任務的自然延伸。 有些 benchmark 看起來漂亮，只能代表模型在某個切片上懂；不代表它能在真實 SOC 或 CTI pipeline 裡穩定交付。

部署面：作者有碰到，但深度其實還不夠

這篇 survey 有一段專門談 LLM-based security solution 在不同網路場景中的部署方式，這點方向是對的，因為實務上真正麻煩的常常不是 demo，而是：

資料在哪裡跑
能不能接企業內網與敏感遙測
延遲是否可接受
成本怎麼控
合規與隱私怎麼處理

不過老實說，這部分在論文裡比較像「有點到」，還沒有到很能支撐架構決策的程度。它告訴你部署是重要問題，但沒有把 enterprise integration、SOC runbook、data governance、model ops 這些現場真的痛的地方講透。

所以這篇在 deployment 上比較像地圖，不像施工手冊。

這篇最值得肯定的一段：它沒有逃避 LLM 本身的風險

作者除了談應用，也整理了 LLM 在資安中面對的內外部風險。這一點很重要，因為如果一篇 survey 只談能力不談風險，那大概就只是行銷文案。

它點到的問題包括：

hallucination
知識過時
資料隱私與敏感資訊外洩
prompt injection / external manipulation
模型本身的安全脆弱性
可解釋性不足與高誤報風險

這些風險和我們近期追的幾篇 paper 其實形成很清楚的互補：有的論文專門談 unreliable reasoning、有的談 CTI pipeline poisoning、有的談 failure mode。這篇 survey 的角色，就是把那些分散的 warning 統整成一個比較完整的風險全景圖。

這篇論文真正的貢獻是什麼？

我認為它的貢獻主要有四個：

用攻擊生命週期來整理 LLM 在資安的角色，比單純按 task 名稱分類更接近防禦思維
把 CTI 明確納入核心討論，沒有把它當成邊角應用
把 benchmark、應用、部署、風險放進同一篇裡，讀者比較容易看到全局
替後續研究指出空白區，特別是 response / recovery / real-world deployment / safety assurance 這些還很薄弱的區域

如果你是研究者，這篇能幫你定位自己做的東西在整張圖上哪裡；如果你是實務方，這篇則會提醒你：現在很多 LLM 資安能力是可用的，但大多數仍停在「值得接進流程協助」而非「可放心獨立決策」。

它的限制也很明顯

當然，這篇也不是沒有問題。

它很廣，但不夠深。 作為 systematic survey，廣度是優點，但很多主題只能點到為止。
CTI 部分有納入，但分析粒度還不如專門的 CTI survey / benchmark paper。
deployment 與實戰 integration 講得偏概念。
很多被引用工作本身仍是早期 proof-of-concept。 所以讀者不能把「研究上有人做」誤讀成「產線上已成熟」。

也就是說，這篇很適合拿來建立全貌與研究導航，但如果你要做具體架構選型，還是得回頭看更細的專題論文。

怎麼放進近期這串 sectools.tw 的 CTI / AI 論文？

如果把它放進我們最近這串文章脈絡，它比較像一篇總覽式的定位器：

像 CTIBench 這種文章，在回答「怎麼測」
像 AURA、CyLens 這種，在回答「怎麼做系統」
像 Large Language Models Are Unreliable for Cyber Threat Intelligence、RAGRank 這些，在回答「哪裡會出事」
而這篇 survey，則是在回答「整張地圖長什麼樣、哪些地方人很多、哪些地方其實還是空白」

所以它不一定是最「炸裂」的一篇，但它很有整理脈絡的價值。對持續追這個題目的讀者來說，這種文章反而能避免大家一直只盯著單點技術，而忽略整個研究場域的重心與缺口。

總結

《Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey》最值得看的地方，不是它提出了什麼驚人的新模型，而是它相對完整地說清楚：LLM 在資安裡真正有前途的方向，是成為一個能串接知識、語意、證據與工作流程的分析放大器，而不是一個可以獨自接管防禦決策的萬能黑盒。

對 CTI / AI 這條線來說，這篇的訊息尤其清楚：LLM 很適合處理 threat report、知識抽取、語意問答與 analyst 輔助推理，但只要牽涉到高不確定性判斷、動態知識更新、或可直接影響防禦動作的決策，它就仍然需要更嚴格的 benchmark、更多結構化支撐、以及更強的安全控制。

簡單講，這篇不是在告訴你「LLM 已經準備好全面接管 cybersecurity」；它真正告訴你的，是另一件更有用的事：哪些地方真的開始能用了，哪些地方還只是看起來很像能用。

論文閱讀分析｜Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

論文基本資訊

這篇 survey 的核心觀點是什麼？

先講結論：LLM 在資安不是萬能腦，而是 workflow amplifier

Reconnaissance 階段：LLM 很適合抓語意型、分散型線索

Foothold 階段：漏洞偵測、分析、修補，是目前最容易看到落地價值的區塊

Lateral Movement 與更後段的防禦：研究有，但不如前面成熟

CTI 在這篇裡的位置：不是附屬品，而是防禦鏈條的情報底座

作者也整理了 benchmark 與能力驗證研究

部署面：作者有碰到，但深度其實還不夠

這篇最值得肯定的一段：它沒有逃避 LLM 本身的風險

這篇論文真正的貢獻是什麼？

它的限制也很明顯

怎麼放進近期這串 sectools.tw 的 CTI / AI 論文？

總結

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇 survey 的核心觀點是什麼？

先講結論：LLM 在資安不是萬能腦，而是 workflow amplifier

Reconnaissance 階段：LLM 很適合抓語意型、分散型線索

Foothold 階段：漏洞偵測、分析、修補，是目前最容易看到落地價值的區塊

Lateral Movement 與更後段的防禦：研究有，但不如前面成熟

CTI 在這篇裡的位置：不是附屬品，而是防禦鏈條的情報底座

作者也整理了 benchmark 與能力驗證研究

部署面：作者有碰到，但深度其實還不夠

這篇最值得肯定的一段：它沒有逃避 LLM 本身的風險

這篇論文真正的貢獻是什麼？

它的限制也很明顯

怎麼放進近期這串 sectools.tw 的 CTI / AI 論文？

總結

發佈留言 取消回覆

You may also like

CyberTeam 論文閱讀分析：把藍隊 Threat Hunting 真正拆成一條可執行的 LLM workflow

CTIArena 論文閱讀分析：用 benchmark 檢驗 LLM 是否真的懂 CTI

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆