論文閱讀分析|Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey

論文基本資訊

  • 論文標題:Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey
  • 作者:Shuang Tian、Tao Zhang、Jiqiang Liu、Jiacheng Wang、Xuangou Wu、Xiaoqiang Zhu、Ruichen Zhang、Weiting Zhang、Zhenhui Yuan、Shiwen Mao、Dong In Kim
  • 年份:2025
  • 來源:arXiv:2504.15622v2
  • 論文連結:https://arxiv.org/abs/2504.15622
  • 主題:LLM、Cybersecurity Survey、CTI、Reconnaissance、Vulnerability Detection、SOC、Risk Analysis

這篇論文不是在做一個新的 CTI agent,也不是再丟一個「LLM 比 baseline 好幾個點」的實驗表。它做的事情比較像是把整個 LLM × Cybersecurity 研究地圖攤開來看:如果我們不只關心單一 task,而是從攻擊生命週期、CTI 工作流、部署場景與風險面一起看,LLM 到底已經能做什麼、還缺什麼、又有哪些地方其實被講得太早了。

對 sectools.tw 這批 CTI / AI 論文來說,這篇的價值不在「技術新奇」,而在框架感。前面我們已經看過 attribution、RAG、benchmark、reliability、poisoning defence 這些相對細分的題目;這篇 survey 則適合拿來回答一個更大的問題:這些點狀成果,放回整個資安實務後,位置到底在哪裡?

這篇 survey 的核心觀點是什麼?

作者主張,討論 LLM 在資安的角色,不能只看某個孤立任務,而要從攻擊—防禦生命週期去看。為此,他們把外部攻擊粗分成幾個階段:

  • Reconnaissance(偵察)
  • Foothold Establishment(建立立足點)
  • Lateral Movement(橫向移動)
  • Data Exfiltration(資料外洩)
  • Post-Exfiltration(外洩後活動)

然後再問:LLM 在這些階段裡,分別可以幫 defender 做哪些事?此外,作者另外把 CTI 拉出來當成重要補充,因為 CTI 本身既是 knowledge base,也是很多防禦決策的上游。

這個切法的好處是,它不會把資安講成一堆互不相干的 demo,而是把 LLM 放回真實 defensive workflow 裡看。這點我認為是這篇最有用的地方。

先講結論:LLM 在資安不是萬能腦,而是 workflow amplifier

如果把整篇 survey 壓成一句話,那就是:LLM 在資安裡最有價值的角色,不是單獨取代 analyst,而是把多個原本分散、繁瑣、需要大量語意理解的工作加速整合起來。

換句話說,LLM 最擅長的不是「憑空當神諭」,而是:

  • 讀大量文字與上下文
  • 把非結構化資訊整理成可操作輸出
  • 在多步驟分析流程裡做推理、摘要、對照與說明
  • 當 analyst、log、threat report、knowledge base 之間的語意介面

這也正好和我們前面追的幾篇論文互相呼應:不管是 AURA 這種多 agent attribution、CTIBench 這種能力評估、還是那些談 hallucination / poisoning / inconsistency 的論文,其實都在提醒同一件事:LLM 有價值,但價值通常來自它被嵌進系統,而不是被神化成系統本身。

Reconnaissance 階段:LLM 很適合抓語意型、分散型線索

在偵察階段,作者把攻擊分成幾類,包括對第三方來源的蒐集、對人的社交工程、以及對系統本身的掃描與探測。這裡他們整理的研究顯示,LLM 在兩種情境特別有用:

  • log / traffic / command context 的語意化分析
  • phishing、惡意頁面、social engineering 內容辨識

這很合理。偵察行為本來就常常零碎、低頻、偽裝性高,很多時候不是靠單一 signature 就能抓到,而是要看多個片段放在一起後有沒有形成可疑模式。LLM 在這種需要長距離脈絡理解的問題上,本來就比傳統 rule-based 方法更有彈性。

作者舉的一些例子包括:

  • 把多變量網路流量轉成可讓 Transformer 理解的 token sequence,做 reconnaissance 行為辨識
  • 利用多 agent / CoT 的 log analysis 框架分析外部攻擊
  • 用 prompt-based 方法做 malicious URL / phishing email 判讀
  • 甚至做成更像真的 honeypot,延緩攻擊者辨識

但這裡也有一個重要提醒:LLM 能幫你看懂更多東西,不代表它天生就更可靠。 在 reconnaissance 這類高噪音場景,false positive、過度解讀、與可重現性問題都還是很現實。

Foothold 階段:漏洞偵測、分析、修補,是目前最容易看到落地價值的區塊

到了 foothold establishment,作者觀察到 LLM 最密集的應用其實集中在:

  • 漏洞偵測
  • 漏洞分析
  • 漏洞修補建議
  • 漏洞與攻擊技術的映射

這一段很像把「程式碼安全」和「威脅脈絡理解」接起來。因為當 attacker 嘗試建立立足點時,防守方最需要做的事情,就是盡快知道哪裡有洞、洞的性質是什麼、被利用的可能性多高、修補會不會有副作用。

論文整理的例子中,有些方法會把 code property graph、control flow graph、graph neural network 等結構資訊接進 LLM,目的很明確:單靠文字模型去讀程式碼不夠穩,所以要讓它搭配更明確的結構表示。

這個趨勢其實很重要。它再次說明,在資安這種高精度場景裡,真正比較有前景的方向通常不是「純 LLM」,而是LLM + 結構化表示 + retrieval / graph / rules / external tools 的混合架構。

Lateral Movement 與更後段的防禦:研究有,但不如前面成熟

作者的一個關鍵觀察是:整體研究雖然很多,但分布其實很不平均。現在大多數工作集中在比較前段的偵察、漏洞分析、初始入侵防禦;而像 lateral movement、response、recovery 這些更後段、更需要高風險決策的環節,研究量明顯少很多。

這其實不意外。因為越往後走,問題越接近真實世界的 incident handling:

  • 要處理更多跨系統證據
  • 要面對更高的不確定性
  • 一旦判斷錯誤,成本更高
  • 輸出不只是分析,還可能牽動封鎖、隔離、修復等行動

所以如果你看到很多論文都在前段任務上表現亮眼,不代表 LLM 已經能平滑延伸到完整 incident response。這篇 survey 的態度算是相對克制,沒有把「局部可用」誇大成「全流程成熟」。這點我給好評。

CTI 在這篇裡的位置:不是附屬品,而是防禦鏈條的情報底座

對我們這個追蹤主題來說,最值得看的當然還是它怎麼放 CTI。作者把 CTI 視為整體防禦的重要 intelligence layer,並認為 LLM 在 CTI 裡的潛力,主要來自以下幾類工作:

  • threat report 摘要與整理
  • 實體辨識、關係抽取、知識結構化
  • 威脅情境問答與 analyst 輔助推理
  • 把外部 threat intelligence 轉成更可操作的防禦知識

這個觀點和我們先前幾篇文章幾乎完全對上。無論是 CyLens、AURA、RAG 類 CTI 系統,還是各種 benchmark / reliability 研究,都在圍繞同一件事:CTI 最大的問題之一不是資料不存在,而是資料太散、太雜、太不一致,難以快速轉成可行動知識。

LLM 剛好擅長對付這種「非結構化但高語意密度」的材料,所以它在 CTI 會持續有吸引力。只是,吸引力不等於已成熟。這篇 survey 雖然比較概括,但至少沒有忽略 CTI 在整個資安防禦中的中樞位置。

作者也整理了 benchmark 與能力驗證研究

這篇論文沒有只談應用場景,也回顧了一批「LLM 到底有沒有那個底子」的 benchmark 研究。作者提到一些工作用資安選擇題、資訊抽取、摘要、分類、ICS 風險推理等任務來測試模型,整體結論大致是:

  • 先進模型在某些資安知識與理解任務上,已經接近有經驗專家的表現
  • 但一旦問題需要更穩定的 domain reasoning、更新知識、跨步驟證據整合,能力就會開始不穩
  • fine-tuning、instruction tuning、prompt engineering、domain pretraining 仍然非常重要

這裡最值得記住的不是「GPT 很強」,而是:資安不是一般語言任務的自然延伸。 有些 benchmark 看起來漂亮,只能代表模型在某個切片上懂;不代表它能在真實 SOC 或 CTI pipeline 裡穩定交付。

部署面:作者有碰到,但深度其實還不夠

這篇 survey 有一段專門談 LLM-based security solution 在不同網路場景中的部署方式,這點方向是對的,因為實務上真正麻煩的常常不是 demo,而是:

  • 資料在哪裡跑
  • 能不能接企業內網與敏感遙測
  • 延遲是否可接受
  • 成本怎麼控
  • 合規與隱私怎麼處理

不過老實說,這部分在論文裡比較像「有點到」,還沒有到很能支撐架構決策的程度。它告訴你部署是重要問題,但沒有把 enterprise integration、SOC runbook、data governance、model ops 這些現場真的痛的地方講透。

所以這篇在 deployment 上比較像地圖,不像施工手冊。

這篇最值得肯定的一段:它沒有逃避 LLM 本身的風險

作者除了談應用,也整理了 LLM 在資安中面對的內外部風險。這一點很重要,因為如果一篇 survey 只談能力不談風險,那大概就只是行銷文案。

它點到的問題包括:

  • hallucination
  • 知識過時
  • 資料隱私與敏感資訊外洩
  • prompt injection / external manipulation
  • 模型本身的安全脆弱性
  • 可解釋性不足與高誤報風險

這些風險和我們近期追的幾篇 paper 其實形成很清楚的互補:有的論文專門談 unreliable reasoning、有的談 CTI pipeline poisoning、有的談 failure mode。這篇 survey 的角色,就是把那些分散的 warning 統整成一個比較完整的風險全景圖。

這篇論文真正的貢獻是什麼?

我認為它的貢獻主要有四個:

  1. 用攻擊生命週期來整理 LLM 在資安的角色,比單純按 task 名稱分類更接近防禦思維
  2. 把 CTI 明確納入核心討論,沒有把它當成邊角應用
  3. 把 benchmark、應用、部署、風險放進同一篇裡,讀者比較容易看到全局
  4. 替後續研究指出空白區,特別是 response / recovery / real-world deployment / safety assurance 這些還很薄弱的區域

如果你是研究者,這篇能幫你定位自己做的東西在整張圖上哪裡;如果你是實務方,這篇則會提醒你:現在很多 LLM 資安能力是可用的,但大多數仍停在「值得接進流程協助」而非「可放心獨立決策」。

它的限制也很明顯

當然,這篇也不是沒有問題。

  • 它很廣,但不夠深。 作為 systematic survey,廣度是優點,但很多主題只能點到為止。
  • CTI 部分有納入,但分析粒度還不如專門的 CTI survey / benchmark paper。
  • deployment 與實戰 integration 講得偏概念。
  • 很多被引用工作本身仍是早期 proof-of-concept。 所以讀者不能把「研究上有人做」誤讀成「產線上已成熟」。

也就是說,這篇很適合拿來建立全貌與研究導航,但如果你要做具體架構選型,還是得回頭看更細的專題論文。

怎麼放進近期這串 sectools.tw 的 CTI / AI 論文?

如果把它放進我們最近這串文章脈絡,它比較像一篇總覽式的定位器

  • CTIBench 這種文章,在回答「怎麼測」
  • AURACyLens 這種,在回答「怎麼做系統」
  • Large Language Models Are Unreliable for Cyber Threat IntelligenceRAGRank 這些,在回答「哪裡會出事」
  • 而這篇 survey,則是在回答「整張地圖長什麼樣、哪些地方人很多、哪些地方其實還是空白」

所以它不一定是最「炸裂」的一篇,但它很有整理脈絡的價值。對持續追這個題目的讀者來說,這種文章反而能避免大家一直只盯著單點技術,而忽略整個研究場域的重心與缺口。

總結

《Exploring the Role of Large Language Models in Cybersecurity: A Systematic Survey》最值得看的地方,不是它提出了什麼驚人的新模型,而是它相對完整地說清楚:LLM 在資安裡真正有前途的方向,是成為一個能串接知識、語意、證據與工作流程的分析放大器,而不是一個可以獨自接管防禦決策的萬能黑盒。

對 CTI / AI 這條線來說,這篇的訊息尤其清楚:LLM 很適合處理 threat report、知識抽取、語意問答與 analyst 輔助推理,但只要牽涉到高不確定性判斷、動態知識更新、或可直接影響防禦動作的決策,它就仍然需要更嚴格的 benchmark、更多結構化支撐、以及更強的安全控制。

簡單講,這篇不是在告訴你「LLM 已經準備好全面接管 cybersecurity」;它真正告訴你的,是另一件更有用的事:哪些地方真的開始能用了,哪些地方還只是看起來很像能用。

You may also like