論文閱讀分析|Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey
論文基本資訊
- 論文標題:Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey
- 作者:Shuang Tian、Tao Zhang、Jiqiang Liu、Jiacheng Wang、Xuangou Wu、Xiaoqiang Zhu、Ruichen Zhang、Weiting Zhang、Zhenhui Yuan、Shiwen Mao、Dong In Kim
- 年份:2025
- 來源:arXiv:2504.15622v2
- 論文連結:https://arxiv.org/abs/2504.15622
- 主題:LLM、Cybersecurity Survey、CTI、Reconnaissance、Vulnerability Detection、SOC、Risk Analysis
這篇論文不是在做一個新的 CTI agent,也不是再丟一個「LLM 比 baseline 好幾個點」的實驗表。它做的事情比較像是把整個 LLM × Cybersecurity 研究地圖攤開來看:如果我們不只關心單一 task,而是從攻擊生命週期、CTI 工作流、部署場景與風險面一起看,LLM 到底已經能做什麼、還缺什麼、又有哪些地方其實被講得太早了。
對 sectools.tw 這批 CTI / AI 論文來說,這篇的價值不在「技術新奇」,而在框架感。前面我們已經看過 attribution、RAG、benchmark、reliability、poisoning defence 這些相對細分的題目;這篇 survey 則適合拿來回答一個更大的問題:這些點狀成果,放回整個資安實務後,位置到底在哪裡?
這篇 survey 的核心觀點是什麼?
作者主張,討論 LLM 在資安的角色,不能只看某個孤立任務,而要從攻擊—防禦生命週期去看。為此,他們把外部攻擊粗分成幾個階段:
- Reconnaissance(偵察)
- Foothold Establishment(建立立足點)
- Lateral Movement(橫向移動)
- Data Exfiltration(資料外洩)
- Post-Exfiltration(外洩後活動)
然後再問:LLM 在這些階段裡,分別可以幫 defender 做哪些事?此外,作者另外把 CTI 拉出來當成重要補充,因為 CTI 本身既是 knowledge base,也是很多防禦決策的上游。
這個切法的好處是,它不會把資安講成一堆互不相干的 demo,而是把 LLM 放回真實 defensive workflow 裡看。這點我認為是這篇最有用的地方。
先講結論:LLM 在資安不是萬能腦,而是 workflow amplifier
如果把整篇 survey 壓成一句話,那就是:LLM 在資安裡最有價值的角色,不是單獨取代 analyst,而是把多個原本分散、繁瑣、需要大量語意理解的工作加速整合起來。
換句話說,LLM 最擅長的不是「憑空當神諭」,而是:
- 讀大量文字與上下文
- 把非結構化資訊整理成可操作輸出
- 在多步驟分析流程裡做推理、摘要、對照與說明
- 當 analyst、log、threat report、knowledge base 之間的語意介面
這也正好和我們前面追的幾篇論文互相呼應:不管是 AURA 這種多 agent attribution、CTIBench 這種能力評估、還是那些談 hallucination / poisoning / inconsistency 的論文,其實都在提醒同一件事:LLM 有價值,但價值通常來自它被嵌進系統,而不是被神化成系統本身。
Reconnaissance 階段:LLM 很適合抓語意型、分散型線索
在偵察階段,作者把攻擊分成幾類,包括對第三方來源的蒐集、對人的社交工程、以及對系統本身的掃描與探測。這裡他們整理的研究顯示,LLM 在兩種情境特別有用:
- log / traffic / command context 的語意化分析
- phishing、惡意頁面、social engineering 內容辨識
這很合理。偵察行為本來就常常零碎、低頻、偽裝性高,很多時候不是靠單一 signature 就能抓到,而是要看多個片段放在一起後有沒有形成可疑模式。LLM 在這種需要長距離脈絡理解的問題上,本來就比傳統 rule-based 方法更有彈性。
作者舉的一些例子包括:
- 把多變量網路流量轉成可讓 Transformer 理解的 token sequence,做 reconnaissance 行為辨識
- 利用多 agent / CoT 的 log analysis 框架分析外部攻擊
- 用 prompt-based 方法做 malicious URL / phishing email 判讀
- 甚至做成更像真的 honeypot,延緩攻擊者辨識
但這裡也有一個重要提醒:LLM 能幫你看懂更多東西,不代表它天生就更可靠。 在 reconnaissance 這類高噪音場景,false positive、過度解讀、與可重現性問題都還是很現實。
Foothold 階段:漏洞偵測、分析、修補,是目前最容易看到落地價值的區塊
到了 foothold establishment,作者觀察到 LLM 最密集的應用其實集中在:
- 漏洞偵測
- 漏洞分析
- 漏洞修補建議
- 漏洞與攻擊技術的映射
這一段很像把「程式碼安全」和「威脅脈絡理解」接起來。因為當 attacker 嘗試建立立足點時,防守方最需要做的事情,就是盡快知道哪裡有洞、洞的性質是什麼、被利用的可能性多高、修補會不會有副作用。
論文整理的例子中,有些方法會把 code property graph、control flow graph、graph neural network 等結構資訊接進 LLM,目的很明確:單靠文字模型去讀程式碼不夠穩,所以要讓它搭配更明確的結構表示。
這個趨勢其實很重要。它再次說明,在資安這種高精度場景裡,真正比較有前景的方向通常不是「純 LLM」,而是LLM + 結構化表示 + retrieval / graph / rules / external tools 的混合架構。
Lateral Movement 與更後段的防禦:研究有,但不如前面成熟
作者的一個關鍵觀察是:整體研究雖然很多,但分布其實很不平均。現在大多數工作集中在比較前段的偵察、漏洞分析、初始入侵防禦;而像 lateral movement、response、recovery 這些更後段、更需要高風險決策的環節,研究量明顯少很多。
這其實不意外。因為越往後走,問題越接近真實世界的 incident handling:
- 要處理更多跨系統證據
- 要面對更高的不確定性
- 一旦判斷錯誤,成本更高
- 輸出不只是分析,還可能牽動封鎖、隔離、修復等行動
所以如果你看到很多論文都在前段任務上表現亮眼,不代表 LLM 已經能平滑延伸到完整 incident response。這篇 survey 的態度算是相對克制,沒有把「局部可用」誇大成「全流程成熟」。這點我給好評。
CTI 在這篇裡的位置:不是附屬品,而是防禦鏈條的情報底座
對我們這個追蹤主題來說,最值得看的當然還是它怎麼放 CTI。作者把 CTI 視為整體防禦的重要 intelligence layer,並認為 LLM 在 CTI 裡的潛力,主要來自以下幾類工作:
- threat report 摘要與整理
- 實體辨識、關係抽取、知識結構化
- 威脅情境問答與 analyst 輔助推理
- 把外部 threat intelligence 轉成更可操作的防禦知識
這個觀點和我們先前幾篇文章幾乎完全對上。無論是 CyLens、AURA、RAG 類 CTI 系統,還是各種 benchmark / reliability 研究,都在圍繞同一件事:CTI 最大的問題之一不是資料不存在,而是資料太散、太雜、太不一致,難以快速轉成可行動知識。
LLM 剛好擅長對付這種「非結構化但高語意密度」的材料,所以它在 CTI 會持續有吸引力。只是,吸引力不等於已成熟。這篇 survey 雖然比較概括,但至少沒有忽略 CTI 在整個資安防禦中的中樞位置。
作者也整理了 benchmark 與能力驗證研究
這篇論文沒有只談應用場景,也回顧了一批「LLM 到底有沒有那個底子」的 benchmark 研究。作者提到一些工作用資安選擇題、資訊抽取、摘要、分類、ICS 風險推理等任務來測試模型,整體結論大致是:
- 先進模型在某些資安知識與理解任務上,已經接近有經驗專家的表現
- 但一旦問題需要更穩定的 domain reasoning、更新知識、跨步驟證據整合,能力就會開始不穩
- fine-tuning、instruction tuning、prompt engineering、domain pretraining 仍然非常重要
這裡最值得記住的不是「GPT 很強」,而是:資安不是一般語言任務的自然延伸。 有些 benchmark 看起來漂亮,只能代表模型在某個切片上懂;不代表它能在真實 SOC 或 CTI pipeline 裡穩定交付。
部署面:作者有碰到,但深度其實還不夠
這篇 survey 有一段專門談 LLM-based security solution 在不同網路場景中的部署方式,這點方向是對的,因為實務上真正麻煩的常常不是 demo,而是:
- 資料在哪裡跑
- 能不能接企業內網與敏感遙測
- 延遲是否可接受
- 成本怎麼控
- 合規與隱私怎麼處理
不過老實說,這部分在論文裡比較像「有點到」,還沒有到很能支撐架構決策的程度。它告訴你部署是重要問題,但沒有把 enterprise integration、SOC runbook、data governance、model ops 這些現場真的痛的地方講透。
所以這篇在 deployment 上比較像地圖,不像施工手冊。
這篇最值得肯定的一段:它沒有逃避 LLM 本身的風險
作者除了談應用,也整理了 LLM 在資安中面對的內外部風險。這一點很重要,因為如果一篇 survey 只談能力不談風險,那大概就只是行銷文案。
它點到的問題包括:
- hallucination
- 知識過時
- 資料隱私與敏感資訊外洩
- prompt injection / external manipulation
- 模型本身的安全脆弱性
- 可解釋性不足與高誤報風險
這些風險和我們近期追的幾篇 paper 其實形成很清楚的互補:有的論文專門談 unreliable reasoning、有的談 CTI pipeline poisoning、有的談 failure mode。這篇 survey 的角色,就是把那些分散的 warning 統整成一個比較完整的風險全景圖。
這篇論文真正的貢獻是什麼?
我認為它的貢獻主要有四個:
- 用攻擊生命週期來整理 LLM 在資安的角色,比單純按 task 名稱分類更接近防禦思維
- 把 CTI 明確納入核心討論,沒有把它當成邊角應用
- 把 benchmark、應用、部署、風險放進同一篇裡,讀者比較容易看到全局
- 替後續研究指出空白區,特別是 response / recovery / real-world deployment / safety assurance 這些還很薄弱的區域
如果你是研究者,這篇能幫你定位自己做的東西在整張圖上哪裡;如果你是實務方,這篇則會提醒你:現在很多 LLM 資安能力是可用的,但大多數仍停在「值得接進流程協助」而非「可放心獨立決策」。
它的限制也很明顯
當然,這篇也不是沒有問題。
- 它很廣,但不夠深。 作為 systematic survey,廣度是優點,但很多主題只能點到為止。
- CTI 部分有納入,但分析粒度還不如專門的 CTI survey / benchmark paper。
- deployment 與實戰 integration 講得偏概念。
- 很多被引用工作本身仍是早期 proof-of-concept。 所以讀者不能把「研究上有人做」誤讀成「產線上已成熟」。
也就是說,這篇很適合拿來建立全貌與研究導航,但如果你要做具體架構選型,還是得回頭看更細的專題論文。
怎麼放進近期這串 sectools.tw 的 CTI / AI 論文?
如果把它放進我們最近這串文章脈絡,它比較像一篇總覽式的定位器:
- 像 CTIBench 這種文章,在回答「怎麼測」
- 像 AURA、CyLens 這種,在回答「怎麼做系統」
- 像 Large Language Models Are Unreliable for Cyber Threat Intelligence、RAGRank 這些,在回答「哪裡會出事」
- 而這篇 survey,則是在回答「整張地圖長什麼樣、哪些地方人很多、哪些地方其實還是空白」
所以它不一定是最「炸裂」的一篇,但它很有整理脈絡的價值。對持續追這個題目的讀者來說,這種文章反而能避免大家一直只盯著單點技術,而忽略整個研究場域的重心與缺口。
總結
《Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey》最值得看的地方,不是它提出了什麼驚人的新模型,而是它相對完整地說清楚:LLM 在資安裡真正有前途的方向,是成為一個能串接知識、語意、證據與工作流程的分析放大器,而不是一個可以獨自接管防禦決策的萬能黑盒。
對 CTI / AI 這條線來說,這篇的訊息尤其清楚:LLM 很適合處理 threat report、知識抽取、語意問答與 analyst 輔助推理,但只要牽涉到高不確定性判斷、動態知識更新、或可直接影響防禦動作的決策,它就仍然需要更嚴格的 benchmark、更多結構化支撐、以及更強的安全控制。
簡單講,這篇不是在告訴你「LLM 已經準備好全面接管 cybersecurity」;它真正告訴你的,是另一件更有用的事:哪些地方真的開始能用了,哪些地方還只是看起來很像能用。
