AthenaBench 論文閱讀分析:用動態 benchmark 檢驗 LLM 在 CTI 的真實推理能力
論文基本資訊
- 論文標題:AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
- 作者:Md Tanvirul Alam、Dipkamal Bhusal、Salman Ahmad、Nidhi Rastogi、Peter Worth
- 年份:2025(v2 於 2026 更新)
- 來源:arXiv:2511.01144
- 論文連結:https://arxiv.org/abs/2511.01144
- 主題:CTI Benchmark、LLM Evaluation、Dynamic Dataset、Threat Actor Attribution、Risk Mitigation、MITRE ATT&CK、CVE/CWE/CVSS
如果說 CTIBench 是第一批比較像樣、真的開始把 Cyber Threat Intelligence(CTI) 當成獨立任務來評估大型語言模型的 benchmark,那 AthenaBench 想做的,就是把這件事再往前推一步:不只測,還要讓 benchmark 跟著威脅情勢一起動。
這篇論文的問題意識很準。CTI 跟一般自然語言任務不一樣,它不是一套幾年不變的靜態知識。新的 CVE 會冒出來、MITRE ATT&CK 會更新、威脅行為者會換工具、攻擊場景也會變。若 benchmark 本身是固定語料、固定題庫,那模型最後測到的很可能只是「記不記得舊資料」,而不是「能不能理解新的威脅並做出合理判斷」。
因此 AthenaBench 的核心價值不在於它又多做了一套題,而在於它想回答一個更根本的問題:
在快速變動的 CTI 場景中,我們要怎麼設計一套持續更新、可比較、而且能真正測到推理能力的 LLM benchmark?
這篇論文想解決什麼?
作者認為,既有 CTI benchmark 雖然已經比一般資安多選題進步很多,但仍有幾個明顯限制:
- 資料容易靜態化:題目來自固定語料,時間一久就會和真實威脅情境脫節
- 某些資料存在重複或污染風險:特別是 CVE / CWE 類任務,若重複樣本沒處理好,評估會失真
- 任務覆蓋仍不完整:例如「看完攻擊情境後推薦 mitigation」這類更接近實務決策的能力,在舊 benchmark 裡不夠突出
- 評估指標還不夠整合:單看每個 task 分數可以,但不容易形成一個整體比較視角
所以 AthenaBench 的目標很清楚:延伸 CTIBench,建立一個更動態、更乾淨、任務更完整、評估更一致的 CTI benchmark。
AthenaBench 的三個核心升級
作者把自己的主要貢獻整理成三大塊,而且這三塊都很實際。
1. 任務與資料集設計升級
AthenaBench 在既有 CTI 任務上做了清理與擴充,包含去除重複樣本、改善 vulnerability 相關任務的資料品質,並且新增一個很重要的新任務:Risk Mitigation Strategies(RMS)。
這個新增任務很值得注意。因為很多 benchmark 還停在「辨識這是什麼 technique / 這是誰做的 / 這個漏洞對應哪個 CWE」,但真實分析工作還會再往前一步:那接下來該怎麼防? AthenaBench 把 mitigation recommendation 拉進 benchmark,等於開始碰觸 CTI 與防禦決策的交界面。
2. 動態資料建構
這是 AthenaBench 最有辨識度的地方。作者不是只整理一份固定資料,而是把 benchmark 建構流程直接連到 MITRE ATT&CK、NVD API 與近期 APT 報告等來源,讓樣本可以依時間窗持續更新。
這樣做有兩個重要效果:
- 降低 benchmark 過時的速度
- 更能測到模型面對新威脅資訊時的表現
對 CTI 來說,這比很多傳統 NLP benchmark 都更重要。因為如果模型只是在重複訓練資料中看過的內容,那它的高分不一定代表能幫 analyst 面對明天的新事件。
3. 評估指標強化
作者也重新整理 task-specific metrics,並加入 unified aggregated score,讓不同模型在各任務的表現能被放到同一個框架下比較。這點雖然不像新 task 那麼吸睛,但很重要:如果沒有一致的彙總方式,很難看清模型到底是「整體有進步」,還是只在少數容易任務上拿高分。
六大任務設計:AthenaBench 到底測什麼?
AthenaBench 一共設計六個互補任務,幾乎把 CTI 常見的知識、推理與映射工作都碰到了。
1. CTI Knowledge Test(CKT)
這是基礎知識測驗,但不是隨便考名詞。資料來自 MITRE ATT&CK、CWE、CAPEC、CISA advisory、STIX/TAXII 與 GDPR 等來源,再由 GPT-5 生成多選題,最後經過雙模型與人工驗證。
最後作者保留 3,000 題高品質題目。這個 task 測的是模型對 CTI 基礎知識、框架與標準的掌握程度。
2. Root Cause Mapping(RCM)
給模型一段 CVE 描述,要它判斷對應的 CWE root cause。這個任務很像漏洞分析與弱點分類裡最常見的 mapping 工作。
作者透過 NVD API 拉取資料,限制為單一 CWE 標註、去重、清掉過短描述,最後建出 2,000 筆資料。這樣的清理很關鍵,因為重複樣本或描述太短都會讓任務失真。
3. Vulnerability Severity Prediction(VSP)
這個任務要求模型根據自然語言漏洞描述,預測其 CVSS v3.1 base vector。也就是說,不只要知道嚴重不嚴重,還要能拆解 attack vector、privileges required、impact 等細部維度。
VSP 其實很能區分模型是「會背嚴重度關鍵字」,還是「真的能從描述推回 CVSS 結構」。作者同樣建了 2,000 筆資料。
4. Threat Actor Attribution(TAA)
這是 CTI 裡最難、也最接近 analyst 推理工作的任務之一。作者蒐集公開 APT 報告,透過 GPT-5 將報告改寫成匿名化、條列化的行為描述,再要求模型推回是誰做的。
這裡最難的是避免資訊洩漏。論文提到,匿名化後仍可能殘留像「俄羅斯 GRU 組織」這種隱性線索,所以作者還做了人工審核。最後保留 100 筆高品質樣本。
樣本數雖然不大,但這個 task 的價值不在量,而在難度:它要求模型從零碎行為特徵做 abductive reasoning,而不是直接做字面匹配。
5. Risk Mitigation Strategy(RMS)
這是 AthenaBench 最值得關注的新任務。作者從 MITRE ATT&CK STIX 2.0 enterprise bundle 抽出 attack pattern 與 mitigation 關係,再把 technique 描述改寫成 2–3 句具體攻擊場景,讓模型根據情境推薦正確的 mitigation set。
換句話說,這不是叫模型背 ATT&CK 表格,而是要它從敘事中看出 underlying technique,再推回防禦措施。作者建立了 500 題 RMS 問題。
這個任務很像在問:模型能不能把 threat understanding 轉成 defense recommendation? 這比純辨識更接近 SOC / blue team 真正會在意的事情。
6. Attack Technique Extraction(ATE)
ATE 和 RMS 使用相近資料管線,但這次模型要做的是從攻擊場景中辨識正確的 MITRE ATT&CK technique ID。作者同樣建立 500 題資料。
它測的不是 mitigation,而是上游那一步:你能不能先看懂這段行為敘事是在講哪個 technique?
資料品質控制:這篇論文做得比很多 benchmark 更細
AthenaBench 一個很大的優點,是作者不只是「湊出很多題目」,而是真的花力氣處理資料品質:
- 對 vulnerability 類資料做 duplicate removal
- 對過短或資訊不足的描述做過濾
- 對 MCQ 題目做雙模型檢查與人工審查
- 對 threat actor attribution 的匿名化結果進行人工驗證,避免 leakage
這些步驟其實決定了 benchmark 有沒有參考價值。因為在 CTI 領域,資料污染、重複描述、標註不一致,都是很常見而且足以把分數灌高的問題。
評測了哪些模型?
作者評估了 12 個模型,橫跨 proprietary 與 open-source:
- GPT-4、GPT-4o、GPT-5
- Gemini-2.5 Flash、Gemini-2.5 Pro
- Qwen3 4B / 8B / 14B
- Llama 3.1-8B、Llama 3-70B、Llama 3.3-70B
- Llama-Primus-Merged(security-oriented finetuned model)
實驗設定上,多數模型溫度設為 0;GPT-5 則使用預設 reasoning configuration。這樣的設定很合理,因為 benchmark 比較重視穩定性而不是 creative generation。
主要結果:模型不是不會做,而是離可靠還很遠
論文的總結相當清楚:
- proprietary 模型整體明顯優於 open-source 模型
- GPT-5 是整體表現最好的模型之一,Gemini-2.5 Pro 緊追在後
- VSP 這類較結構化任務表現相對較好
- TAA 與 RMS 這種推理密集型任務仍顯著偏弱
- open-source 模型落後更明顯,代表一般通用開源模型離 CTI 實戰還有距離
這裡最值得注意的不是誰第一,而是任務間落差。也就是說,今天的 LLM 在 CTI 裡比較擅長做的是:
- 較規則化的分類
- 已知格式的 mapping
- 結構化的 severity / weakness 預測
但一旦進入:
- 威脅行為者歸因
- 多線索行為推斷
- 把攻擊描述轉成對應防禦策略
模型就會明顯吃力。這跟很多人的直覺一樣:LLM 在 CTI 裡最弱的地方,往往不是讀不懂句子,而是無法把分散證據穩定地轉成專業判斷。
為什麼 AthenaBench 值得看?
我認為這篇論文的價值有四個層次。
- 它把 CTI benchmark 從靜態題庫拉向動態更新,更符合資安知識快速變動的本質。
- 它補上了 risk mitigation 這個更接近防禦實務的新任務,讓 benchmark 不只停在識別與分類。
- 它強化了資料清理與驗證流程,讓分數更有可信度。
- 它再次證明:通用 LLM 距離真正可靠的 CTI reasoning 仍有明顯差距。
從這個角度看,AthenaBench 不只是 CTIBench 的加強版,它更像是在對整個 CTI + LLM 研究圈說:如果你真的想做可用的 CTI agent、SOC copilot 或 threat analysis assistant,就不要只追單點 demo,而要先正視模型在哪些任務上其實還做不好。
論文限制
當然,這篇也不是沒有侷限:
- 動態 benchmark 雖然更真實,但也更難維持長期可重現性;同一時間窗與資料版本不同,結果可能會變動
- 部分任務仍仰賴 GPT-5 參與資料生成,雖然有驗證流程,但仍會帶入生成模型本身的偏差
- TAA 樣本數偏少,顯示高品質 attribution 資料依舊昂貴且難取得
- benchmark 仍主要聚焦文字層面的 CTI 任務,尚未觸及更長流程、工具互動型的 analyst workflow
不過這些限制不會否定它的重要性。恰恰相反,它提醒我們:CTI benchmark 要做得像樣,本來就不便宜,也不可能完全自動化。
總結
AthenaBench 是一篇值得接在 CTIBench 與 CTIArena 後面讀的論文,因為它代表 CTI benchmark 正在從「把題目湊齊」進化成「讓評測與真實威脅世界同步更新」。
它給出的訊息很明確:
- CTI benchmark 不能是靜態的
- 資料清理與 leakage 控制非常關鍵
- LLM 在結構化任務上已有一定能力
- 但在 attribution 與 mitigation 這類高階推理任務上,仍明顯不夠穩
- 若想把 LLM 用進 CTI workflow,需要更針對 CTI 設計的模型與評測框架
如果你正在做 threat intelligence copilot、RAG-based CTI assistant、或任何宣稱能支援 analyst decision-making 的安全 AI 系統,AthenaBench 很值得拿來當鏡子。因為它不只是問模型會不會答,而是在問:當題目開始接近真實工作時,模型到底還剩下多少真正可靠的能力?
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行彙整、解讀與摘要。儘管已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。本文內容僅供研究交流與知識分享參考,實際技術細節、實驗設定與最終結論,仍應以原始論文、官方文件及作者公開資料為準。
