CyberRAG 論文閱讀分析：用 Agentic RAG 做攻擊分類、解釋與自動報告

2026 年 4 月 6 日

論文基本資訊

論文標題：CyberRAG: An Agentic RAG cyber attack classification and reporting tool
來源：Future Generation Computer Systems
年份：2025
論文連結：https://arxiv.org/abs/2507.02424
主題：CTI、Agentic RAG、Attack Classification、IDS/IPS、LLM、Structured Reporting

這篇 CyberRAG: An Agentic RAG cyber attack classification and reporting tool 的核心問題很實務：當 IDS/IPS 每小時丟出海量警報、還夾雜高比例 false positives 時，能不能讓一個具備專家模組與多輪推理能力的 Agentic RAG 系統，幫分析師自動完成攻擊分類、原因說明與報告生成？

這篇研究不只是再做一個 RAG 問答工具，而是明確站在 SOC 實務情境裡，試圖把三件事串在一起：

攻擊分類
證據導向說明
可直接給分析師閱讀的自然語言報告

作者把這套系統叫做 CyberRAG，其特色在於它不是傳統單輪檢索後就回答的 RAG，而是帶有 agentic orchestration 的多模組系統：一個核心 LLM 負責調度多個專家分類器、RAG 工具與報告模組，並在必要時重新分類、重新檢索與重新推理。

研究問題

作者認為，目前 IDS/IPS 與一般機器學習偵測器即使能降低警報量，仍存在兩個根本問題：

false positives 多：依然需要人工介入驗證
可解釋性不足：輸出通常只是 log strings 或 label，無法真正幫助 analyst 快速理解威脅

另一方面，標準 RAG 也有侷限：

通常只做一次 retrieval
如果第一次抓到的 context 不準，後面整段 reasoning 都會歪掉
很難根據不確定性動態調整控制流程

因此，這篇論文真正想回答的是：

能否設計一個 agentic RAG framework，使其在分類、解釋與報告生成三方面同時兼顧？
透過 attack-family-specific classifiers 與 iterative retrieval-and-reason loop，能否顯著降低誤報並提升解釋品質？
這種系統能否作為 SOC-ready 的半自動化工作流元件？

方法概觀：CyberRAG 的整體架構

CyberRAG 的整體設計可以概括為：

IDS/IPS alert 或可疑 payload
        ↓
核心 LLM agent 啟動整體流程
        ↓
呼叫專家分類器判斷攻擊家族
        ↓
RAG 模組檢索對應 attack domain 的知識
        ↓
若證據不足或分類不穩，執行重新推理 / 重新檢索
        ↓
產生攻擊說明、分類依據與 mitigation 建議
        ↓
輸出自然語言報告與互動式問答支援

和一般 RAG 不同的是，CyberRAG 的核心不是「先檢索、再回答」，而是 由一個中央 LLM agent 協調多個工具與模組，依照情況決定下一步要：

分類
改分類
檢索
重新檢索
生成報告

核心設計一：Task Specialization

CyberRAG 的第一個關鍵設計是 專家化分類器。作者不是讓一個通用 LLM 直接對所有攻擊類型做單次分類，而是為不同攻擊家族建立各自的 fine-tuned classifiers。

論文中評估的三個攻擊類型包括：

SQL Injection
XSS
SSTI

作者也強調，架構本身具有擴充性：若未來要支援更多 attack families，例如 DDoS、ransomware、其他 web attacks，理論上只需要新增對應 classifier，而不必重訓整個核心 agent。

這個設計很有價值，因為它刻意避免把所有事情都丟給單一通用模型，而是利用 domain specialization 提高分類精度。從系統工程角度看，這是非常合理的模組化設計。

核心設計二：Agentic RAG，而不是傳統單輪 RAG

CyberRAG 最主要的技術主張，是它採用 agentic RAG。作者指出，傳統 RAG 的基本流程通常是：

檢索一次 context
把 context 與 query 一起送進 LLM
生成最終答案

這種方式在簡單 QA 場景可行，但在 cyber attack classification 裡有兩個問題：

第一次 retrieval 可能抓錯或抓得不夠精準
如果 classification 本身有歧義，單次 retrieval 很難修正

CyberRAG 的改進是讓核心 agent 具有動態控制流程能力。也就是說，當系統發現：

目前分類不確定
retrieved context 不夠支撐
推理結果自洽性不足

就可以再次：

檢索
重新分類
更換知識庫查詢方向
重新生成說明

因此，CyberRAG 其實是把 classification + retrieval + explanation 放進同一個迭代式 agent workflow，而不是線性管線。

核心設計三：Attack Description Report Generator

這篇論文另一個很實務的設計，是最終輸出不只是 label，而是一份可讀的 attack description report。

作者的目標很清楚：SOC 分析師不需要再自己從原始 log string 拼湊攻擊脈絡，而是讓系統根據：

分類結果
retrieved domain knowledge
上下文推理

生成一份自然語言報告，內容應包含：

這是什麼攻擊
它為什麼被判成這個攻擊
可能的影響
對應 mitigation steps

這其實讓 CyberRAG 從純研究模型，往 analyst-facing tool 更靠近一步。

背景模組：為什麼聚焦 XSS、SSTI、SQL Injection？

論文選擇 XSS、SSTI、SQL Injection 作為主要攻擊類型，有兩層理由：

它們都是高代表性的 web-based attacks
三者都涉及不同層次的 payload 語義理解

例如：

XSS 側重瀏覽器端腳本注入
SSTI 涉及 server-side template engines 被濫用
SQL Injection 涉及查詢語法與資料庫互動結構

從模型角度看，這三類攻擊很適合測試一個分類器到底是在做真正的安全語意判斷，還是只在做粗淺的字串 pattern matching。

實驗結果

根據摘要，CyberRAG 在三個攻擊類別上的表現相當亮眼：

SQL Injection、XSS、SSTI 各類別 accuracy 均超過 94%
最終整體分類準確率為 94.92%

除了分類準確率之外，作者也評估 explanation quality：

BERTScore = 0.94
GPT-4-based expert evaluation = 4.9 / 5

此外，論文指出這套方法在：

adversarial payloads
未見過的 payloads

上仍保有不錯的 robustness。

如果這些結果穩定成立，代表 CyberRAG 的價值不只是「分類還不錯」，而是：

分類準
說明品質高
輸出形式接近 analyst 可直接使用的報告

這篇論文真正的新意在哪裡？

如果只看標題，你可能會以為 CyberRAG 只是把 agentic RAG 套到資安上。但實際上，它真正的新意在於三個層面：

1. Specialist-Oriented Architecture

它不是一個大一統模型，而是 central agent + specialized classifiers 的組合。這讓分類的精準度與系統擴充性都比較合理。

2. Iterative Retrieval-and-Reason Loop

它不是一輪檢索就結束，而是允許 agent 依據不確定性去再查、再分類、再解釋，這比較像真正分析師的工作方式。

3. SOC-ready Prose

它把輸出目標設定成可直接被安全團隊閱讀的自然語言報告，而不是停留在 prediction label。這一點在資安工具裡非常重要，因為 analyst 真正需要的是可行動的說明，而不是只有一個分數。

這篇論文的限制

雖然 CyberRAG 的方向很好，但也有幾個明顯限制：

目前只測三種攻擊類型：還無法證明在更廣 attack families 上同樣有效
偏 payload / web attack 場景：與大規模 enterprise CTI 文件分析仍有差距
以 GPT-4-based evaluation 評估 explanation：雖然方便，但仍不如大規模人工專家評分扎實
agentic loop 的 latency 與成本：在真實 SOC 場景中會是實際部署時的重要考量

但即便如此，這篇研究仍然非常值得注意，因為它把「高準確分類」與「高可讀報告」放到同一個系統裡處理，而不是只做其中一半。

和前面幾篇文章的關係

如果把 CyberRAG 放進你現在的系列脈絡，它的位置大概是：

RAGIntel：偏 attack investigation
RAGRecon：偏 explainable CTI QA + KG
TechniqueRAG：偏 ATT&CK technique annotation
CyberRAG：偏 SOC-ready attack classification + reporting

它補上的，是從「抽資訊／問問題」再往前走一步，變成「對告警與 payload 直接做判斷，並輸出人能看的報告」。這是很自然、也很實務的一條延伸線。

重點整理

CyberRAG 是一套結合 Agentic RAG、專家分類器與自然語言報告生成的資安分析框架。
核心 LLM agent 負責調度分類器、RAG 工具與 reporting modules。
與傳統單輪 RAG 不同，CyberRAG 支援 iterative retrieval-and-reason，能在不確定時重新分類與重新檢索。
系統目前聚焦於三種 web attack：SQL Injection、XSS、SSTI。
整體分類準確率達 94.92%，各類別 accuracy 超過 94%。
生成說明在 BERTScore 與 GPT-4-based expert evaluation 上表現良好，顯示其報告品質具可讀性與解釋性。
這篇研究的重要性在於，它把 attack classification、explanation 與 report generation 串成一套 analyst-facing workflow。

Takeaway

這篇論文最值得記住的一點，是它明確展示了：Agentic RAG 在資安裡的價值，不只是把檢索做得更漂亮，而是把分類、證據、說明與報告整合成一條可實際服務 SOC 分析師的工作流。

CyberRAG 的意義不在於單純把 LLM 加進 IDS/IPS 後面，而在於它重新思考了告警處理流程：當系統不確定時，應該再找證據、再推理、再生成，而不是一次吐出一個模糊 label 了事。從這個角度來看，CyberRAG 提供的不只是較高 accuracy，而是一種更接近真實資安作業需求的 Agentic CTI / detection 架構。

免責聲明

本文由 AI 整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考，實際技術細節、實驗設定與最終結論，仍應以原始論文、官方文件及作者公開資料為準。

CyberRAG 論文閱讀分析：用 Agentic RAG 做攻擊分類、解釋與自動報告

論文基本資訊

研究問題

方法概觀：CyberRAG 的整體架構

核心設計一：Task Specialization

核心設計二：Agentic RAG，而不是傳統單輪 RAG

核心設計三：Attack Description Report Generator

背景模組：為什麼聚焦 XSS、SSTI、SQL Injection？

實驗結果

這篇論文真正的新意在哪裡？

1. Specialist-Oriented Architecture

2. Iterative Retrieval-and-Reason Loop

3. SOC-ready Prose

這篇論文的限制

和前面幾篇文章的關係

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

研究問題

方法概觀：CyberRAG 的整體架構

核心設計一：Task Specialization

核心設計二：Agentic RAG，而不是傳統單輪 RAG

核心設計三：Attack Description Report Generator

背景模組：為什麼聚焦 XSS、SSTI、SQL Injection？

實驗結果

這篇論文真正的新意在哪裡？

1. Specialist-Oriented Architecture

2. Iterative Retrieval-and-Reason Loop

3. SOC-ready Prose

這篇論文的限制

和前面幾篇文章的關係

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

投稿前夜：寫給所有還沒按下 submit 的人

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆