0-CTI 論文閱讀分析:當威脅情報自動化真正卡住時,問題可能不是模型,而是根本還沒有資料可教
0-CTI 把 CTI extraction 的核心問題從模型能力拉回資料現實:在缺乏高品質標註資料時,如何以同一套模組化框架同時支援 supervised 與 zero-shot 的 entity / relation extraction,並把輸出對齊 STIX,讓威脅情報自動化能在 data-poor 環境下先動起來。
0-CTI 把 CTI extraction 的核心問題從模型能力拉回資料現實:在缺乏高品質標註資料時,如何以同一套模組化框架同時支援 supervised 與 zero-shot 的 entity / relation extraction,並把輸出對齊 STIX,讓威脅情報自動化能在 data-poor 環境下先動起來。
這篇論文真正想補的不是再多一個 TTP extraction 模型,而是把 MITRE ATT&CK 官方標準重新整理成機器拿得動、分析師看得懂的判斷知識。作者以雙層 Situational Knowledge Representation 與 evolvable memory,嘗試解決「模型學的是資料集偏好,不是標準本身」這個 CTI 自動化的老問題。
這篇論文把 threat report 自動化從一般 entity extraction 往 STIX operationalization 再推一步:透過 AZERG 將任務拆成實體偵測、型別辨識、關聯配對與關係型別判定四個子任務,並以 141 份真實報告、4,011 個 entities、2,075 個 relationships 的資料集驗證,說明 CTI 自動化真正重要的不只是抽出資訊,而是能否把資訊整理成交換系統接得住的結構。
這篇研究把 LLM、domain ontology 與 SHACL constraints 接在一起,處理的不是單純 extraction accuracy,而是如何讓資安日誌與事件文本抽出的 CTI 從黑箱文字,變成可驗證、可結構化、可落進知識圖系統的透明輸出。
Large Language Model...
論文基本資訊 論文標題:A RAG-Ba...