使用語言模型與知識圖技術建構高可性度情報鏈:以分析資料外洩事件為例

在分析資料外洩事件的過程中,資安分析師面對眾多挑戰,如獨立分析的高時間和成本消耗。近期,資安專家逐漸採用生成式AI技術,如ChatGPT和Claude,來增強其分析能力。這些大型語言模型(LLM)能快速提供必要的情報,從而縮短分析時間。然而,大型語言模型在資安領域的適用性可能存在限制。例如,使用ChatGPT可能會依據OpenAI的2024年1月隱私政策收集個人資訊。此外,由於多數資安資訊處於封閉環境,模型訓練可能缺乏相關知識,進而影響回應的精確性。雖然檢索增強生成(RAG)技術可以通過從外部資料庫搜尋並整合資訊來改善LLM的回應,但其基於文字向量相似度的搜尋方法在理解威脅情報時可能會遇到問題。為此,我們提出一種結合語言模型和知識圖譜的新方法,通過分析情報間的關聯性與真實性來篩選虛假情報,建立高可信度的情報源。本研究還探討了虛假情報氾濫的現象,引用相關論文討論LLM在資安領域的適用性,並強調知識圖譜和語言模型在語義理解上的能力。我們的方法涉及改良知識圖的構建過程,定義威脅實體和關係,利用BERT模型提取重要實體,並將多個威脅情報整合成知識圖,使用Neo4j進行視覺化輸出。此外,我們透過生成式提示(Prompt)來執行Cypher查詢,進行知識圖的查詢,並將結果組合成大型Prompt回饋給LLM。本研究展示了此方法在資安事件分析中的應用,實驗結果表明,我們的方法在回應速度和準確性上顯著優於傳統手動分析,即使在混有假情報的情況下也能正確回答關鍵問題,證明了這一方法的有效性和可靠性。


議程:台灣駭客年會-社群場 HACKS IN TAIWAN CONFERENCE – COMMUNITY 2024

講者:奧義智慧科技實習資安研究員陳勝舢 & 洪幸里

時間:2024/8/23 (五) 14:00 – 14:40


簡報下載:https://hitcon.org/2024/CMT/agenda/30e92bf5-9de3-434b-abca-66b2add2dd11/

You may also like