Collaborative Intelligence 論文閱讀分析：當 SOC 分析師真正開始用 LLM，最先被改變的往往不是決策，而是理解速度

2026 年 4 月 10 日

論文基本資訊

論文標題：Collaborative Intelligence: Topic Modelling of Large Language Model use in Live Cybersecurity Operations
年份：2025
來源：arXiv:2508.18488
論文連結：https://arxiv.org/abs/2508.18488
DOI：10.48550/arXiv.2508.18488
主題：SOC、Human-AI Collaboration、Topic Modelling、LLM、Security Operations、Workflow Design

如果前一篇 LLMs in the SOC 告訴我們「分析師真的開始在現場用 LLM 了」，那這篇 Collaborative Intelligence 更像是在追問下一個更細的問題：他們到底把 LLM 用在哪些具體微任務上？最常出現的互動模式是什麼？而這些使用痕跡，對未來 SOC 工具設計意味著什麼？

這篇論文的價值不在於再證明一次 LLM 很強，而在於它把視角放回真實使用現場。作者研究的不是 benchmark，也不是人造 task，而是 live cybersecurity operations 中分析師對 LLM 的實際使用資料，並透過 topic modelling 去看清楚：這些互動的主要主題到底長什麼樣。這件事很重要，因為很多 SOC copilot 的設計，仍然建立在想像中的 use case；而這篇做的，是把想像拉回紀錄。

這篇論文想回答什麼？

作者關心的問題很務實：當 SOC 團隊已經可以在安全邊界內使用 LLM 時，分析師自然會把它拿來做什麼？是請它幫忙判案、做威脅獵捕、寫報告，還是只是快速解釋一段指令？

換句話說，這篇論文要處理的核心問題不是模型能力上限，而是：

真實 SOC 人員最常把 LLM 用在哪類任務？
這些任務是高風險判斷，還是低摩擦的理解輔助？
如果把 analyst 與 LLM 的互動做主題建模，會浮現出哪些穩定模式？
這些模式能不能反過來指導下一代 SOC 工具設計？

這個切法很值得注意。因為很多 AI for SOC 的討論太容易直接跳去「讓 agent 幫你 triage、判定、回應」。但現實世界裡，工具能不能長出黏性，往往不是看它能不能接管整條流程，而是看它有沒有真的幫人省下每天都會遇到的那一小段認知成本。

研究方法：用 topic modelling 看懂現場互動

根據 arXiv 摘要，作者研究的是一組來自真實 Security Operations Centre 的 LLM 使用資料。分析師透過內部部署的 HTTP-based chat application 存取 GPT-4，資料涵蓋 10 個月 的 live security operations 使用紀錄。

方法上，作者做了兩組 topic modelling：

BERTopic：使用既有成熟的 topic modelling 方法
Novel topic modelling workflow：作者另外設計的新流程

這種雙軌做法有個好處：它不是只靠單一演算法硬切主題，而是試圖確認，無論用成熟方法還是新流程，最後浮現出來的高頻使用模式是否一致。若兩條路都指出類似結論，那研究結果就比較不像某個 clustering trick 的產物，而更像真實行為的穩定訊號。

核心發現：SOC 分析師最常拿 LLM 來看懂複雜字串，不是拿來替他下判決

這篇最值得記住的結果非常乾脆：不論是 BERTopic 還是作者的新方法，都顯示 SOC 分析師最主要的 LLM 使用情境，是幫助自己理解複雜文字字串。

而且這不是邊角用途，而是主流用途。論文指出，這一類使用的變體合計約占 40% 的 SOC LLM usage。

這代表什麼？代表分析師面對 LLM 時，最自然的需求並不是：

「幫我決定這是不是入侵」
「幫我直接做最終處置」
「幫我從頭到尾跑完 investigation」

而比較像是：

這段 command / script / log string 到底在做什麼？
這串參數或 artifact 有什麼值得注意？
這段技術描述可不可以更快幫我翻成人能用的語言？
這些文字背後實際的操作意圖是什麼？

如果把它講白一點，這篇論文的訊息是：在真實 SOC 裡，LLM 最先穩定落地的角色，不是代替 analyst 決策，而是幫 analyst 更快看懂那些又長、又怪、又容易拖慢節奏的技術文字。

為什麼這個發現很重要？

很多人談 AI 進 SOC，直覺會先想到 alert triage automation、incident classification、甚至 autonomous response。但這篇論文反而提醒我們，真正黏得住工作流的第一波價值，可能沒那麼戲劇化。

在 SOC 現場，分析師每天都有大量時間花在：

看懂 shell command、PowerShell、Python snippet、regex
把可疑行為描述整理成人能讀的說法
解釋某個 artifact 或 log 片段代表什麼
在高壓節奏下快速補足上下文

這些工作不一定是 headline task，卻很常是 investigation 裡最消耗注意力的 friction point。從這個角度看，LLM 真正先切入 SOC 的位置，比較像 cognitive compression layer：它幫你把複雜文字壓縮成比較容易判讀的形式，讓人能更快回到真正重要的調查與決策。

這篇論文其實在替 SOC copilot 設計劃出方向

作者在摘要裡點得很明白：如果我們已經知道高頻 use case 長什麼樣，下一步就不該再做一個泛用聊天視窗，然後期待分析師自己想像怎麼用；而是應該把工具設計成能貼著這些高頻任務長出來。

論文舉的一個很具體的例子，就是在 SOC 環境內做出 right-click context menu，直接對 command line 片段呼叫 LLM 分析能力。這個例子之所以有意思，是因為它反映出作者的產品觀很成熟：

不是把 analyst 拉去另一個 chat world
不是要求 analyst 重新學一套 AI workflow
而是把 LLM 放進既有操作流程的最近位置

這其實正是很多企業工具最後能不能被持續使用的分水嶺。SOC 分析師不是沒能力跟 AI 聊，而是沒有餘裕每次都切 context、整理 prompt、重講一次背景。真正有用的協作式 AI，不只是回答得好，而是出現在正確的位置、正確的時機、正確的粒度。

和前一波 agentic security 論文相比，這篇更像是在談 adoption reality

最近一大串 agentic security 論文，無論是 runtime boundary、delegation chain、tool supply chain、multi-agent trust propagation，焦點大多在「當 agent 能做更多事時，風險怎麼變大」。這篇則把鏡頭轉回比較少人耐心看的另一面：人在現場到底願不願意用、最先會用在哪裡、什麼能力真正被當成工作的一部分。

這讓它和那些更偏 offensive benchmark、formal security model、guardrail evaluation 的 paper 形成一個很好的互補。因為如果不知道 analyst 真正高頻採用的是哪類 interaction，我們做出再多華麗 agent，也可能只是漂亮 demo，而不是能留在桌面上的工具。

我怎麼看這篇論文？

我覺得這篇論文真正有價值的地方，在於它把「協作」這個詞從抽象口號拉回可觀察行為。很多人說 human-AI collaboration，但實際上常常只是在講「人加上一個很強的模型」。這篇不是。它試圖從真實紀錄裡分辨：這個 collaboration 到底是在什麼工作片段上發生的。

而作者得到的答案相當一致：分析師最先需要的不是 AI 幫他做主，而是 AI 幫他更快把複雜技術語言翻譯成可操作理解。

這個結論很樸素，但也因此很可信。因為真正的安全營運，很少是每小時都在做 grand strategic reasoning；更多時候，是在一堆 command、artifact、log、case note、query、rule 與解釋之間高速切換。誰能先把這層 friction 降下來，誰就比較有機會先被 analyst 接納。

這篇研究的限制

當然，從摘要能看到的範圍來說，這篇也有幾個需要保留的地方：

資料來自特定 SOC 場域：不同組織的工作流、工具鏈與資料政策不同，使用模式未必完全一致。
重點在 usage pattern，不是直接量 outcome：它告訴我們人怎麼用，但沒有直接回答這些用法能否穩定提升 triage 速度、偵錯品質或 investigation 成效。
topic modelling 本質上仍是後設歸納：即使有兩種方法交叉驗證，最終仍是在為使用行為做聚類與命名，而不是逐筆精細地驗證每個 task 的實際價值。

不過這不太影響它的實用性。因為這篇的最大貢獻，本來就不是要當 performance benchmark，而是幫我們看清 adoption pattern。

對實務者的啟示

如果你在做 SOC 平台、AI assistant、MDR 內部工具，這篇論文至少給了幾個很實際的提醒：

先做 command / string / artifact understanding，再談 autonomous analyst：高頻 use case 往往藏在理解與解釋層。
把 LLM 做成 workflow-native capability，而不是外掛聊天室：context menu、inline analysis、artifact-aware assistant 會比單純 chat 視窗更貼地。
優先支援 micro-interaction：真正被反覆使用的，常常是幾秒內能補完上下文的小功能。
不要過度預設 analyst 想把決策權交出去：人多半先想要理解加速，而不是直接把 verdict outsource 給模型。

總結

Collaborative Intelligence: Topic Modelling of Large Language Model use in Live Cybersecurity Operations 這篇論文最重要的地方，不是又替 LLM 找到一個新能力，而是幫我們更精準地描述：在真實 SOC 裡，人是怎麼把 LLM 納入工作流的。

它給出的答案其實很值得記住：

LLM 在 SOC 的高頻價值，首先落在複雜文字與技術字串的理解
這類用途約占整體使用量的四成
這代表最自然的落地點不是全面接管，而是低摩擦、貼流程、補理解
真正該做的，不是再造一個更花俏的 chatbot，而是把這種理解能力嵌進分析師本來就在用的操作界面裡

如果說近年的資安 AI 論文常在追問「agent 能不能做更多」，那這篇更像是在提醒我們另一件同樣重要的事：真正能留下來的工具，往往不是最會炫技的那個，而是最懂現場摩擦點在哪裡的那個。

免責聲明

本文由 AI 產生、整理與撰寫。 內容主要依據公開論文、arXiv 頁面與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

Collaborative Intelligence 論文閱讀分析：當 SOC 分析師真正開始用 LLM，最先被改變的往往不是決策，而是理解速度

論文基本資訊

這篇論文想回答什麼？

研究方法：用 topic modelling 看懂現場互動

核心發現：SOC 分析師最常拿 LLM 來看懂複雜字串，不是拿來替他下判決

為什麼這個發現很重要？

這篇論文其實在替 SOC copilot 設計劃出方向

和前一波 agentic security 論文相比，這篇更像是在談 adoption reality

我怎麼看這篇論文？

這篇研究的限制

對實務者的啟示

總結

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想回答什麼？

研究方法：用 topic modelling 看懂現場互動

核心發現：SOC 分析師最常拿 LLM 來看懂複雜字串，不是拿來替他下判決

為什麼這個發現很重要？

這篇論文其實在替 SOC copilot 設計劃出方向

和前一波 agentic security 論文相比，這篇更像是在談 adoption reality

我怎麼看這篇論文？

這篇研究的限制

對實務者的啟示

總結

免責聲明

發佈留言 取消回覆

You may also like

SoK: Agentic Skills 論文閱讀分析：真正危險的可能不是工具本身，而是那套會被反覆重用的做事方法

ReGAIN 論文閱讀分析：讓 LLM 讀網路流量時，不只回答，還要拿得出證據

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆