CTI Echo Chamber 論文閱讀分析:真正危險的可能不是情資太少,而是大家其實都在看彼此差不多的地方
論文基本資訊
- 論文標題:The CTI Echo Chamber: Fragmentation, Overlap, and Vendor Specificity in Twenty Years of Cyber Threat Reporting
- 作者:Francesco Marciori、Mauro Conti、Juan Tapiador
- 年份:2026
- 來源:arXiv:2602.17458v1
- 論文連結:https://arxiv.org/abs/2602.17458
- 主題:Cyber Threat Intelligence、LLM Information Extraction、Meta-Intelligence、Vendor Bias、Threat Reporting、Dataset Construction
這篇 The CTI Echo Chamber 有意思的地方,不是它又做了一個新的 threat report extraction pipeline,而是它反過來問了一個更值得怕的問題:如果整個 open-source CTI 生態本身就高度碎片化、彼此重疊很低、而且每家 vendor 都有自己的地理與產業偏視角,那我們每天以為自己在看「威脅全貌」,其實是不是只是在看幾個觀測孔洞拼出來的幻覺?
這篇論文把焦點從「模型能不能抽對欄位」往上拉到「整個 CTI 產業到底在怎麼看世界」。作者用 LLM 建了一條高精度的結構化抽取管線,處理 13,308 份來自 10 個開放 CTI 來源、跨 20 年的報告,最後得到一個叫 CTIRep 的大規模資料集。真正重要的不是資料量本身,而是這份資料集讓作者第一次可以比較系統性地回答幾件事:誰在寫、在寫誰、寫哪些受害者、用什麼動機框架在描述攻擊,以及不同 vendor 之間到底有多少真正的情報互補。
這篇論文想解決什麼問題?
CTI 領域一直有個很尷尬的結構性問題:公開報告很多,但真正能拿來做長期量化分析的 structured dataset 很少。原因很簡單:
- 報告格式高度異質,PDF、部落格、報告書、情資卡都有
- 命名不一致,actor alias、vendor 名稱、地理名稱都很亂
- 技術細節和戰略語意密度不對稱,IoC 多,不代表 motivation / victimology 也清楚
- 不同廠商各自看自己擅長或看得到的世界,天然就有 coverage bias
所以這篇論文真正想回答的不是單一 extraction performance,而是三個更大的研究問題:
- LLM 能不能把二十年 CTI 報告穩定抽成高品質 structured labels?
- 如果真的抽出來,長期威脅生態到底長什麼樣?
- 更重要的是,CTI vendor 自己的觀測偏差有多嚴重?
這個角度很對。因為很多 CTI 自動化研究都預設資料來源本身是中性的,只要模型夠強、schema 夠清楚,就能把 intelligence 自動化。但如果來源世界本來就不是完整的,那後面的模型再厲害,也只是在更有效率地整理偏差。
方法論核心:先把 CTI 報告變成能分析的資料
作者的管線本質上是 LLM-assisted large-scale CTI structuring。高層看可以拆成幾步:
- 從 10 個開源 CTI 來源蒐集 13,308 份檔案
- 去重、清理、統一文件格式
- 先用 LLM 協助建立 taxonomy
- 再用 reasoning model 對每份報告抽取結構化欄位
- 最後做大量 post-processing、normalization、人工驗證與統計分析
這裡最值得注意的不是「用了 LLM」,而是作者很清楚知道 只靠 LLM 直接吐答案不夠。他們把很多真正在 CTI 裡麻煩的髒活補上了:像是 vendor 名稱正規化、threat actor alias consolidation、地理名稱合併、分類 taxonomy 壓縮,以及防止模型把外部常識偷偷補進欄位。這些步驟很不 glamorous,但如果沒做,後面的量化分析幾乎都不可信。
資料規模:這篇論文真正有分量的地方
作者最後建出的 CTIRep,規模不小,而且重點是欄位夠多:
- 12,723 筆 structured records
- 1,626 個 CTI vendors
- 2,722 個 threat actors
- 12 類 attack motivations
- 254 個 targeted geographies
- 24 個 victim business sectors
- 107,611 個 IoCs
- 833 個 TTPs
這組數字本身就很有訊號。它告訴你 CTI 生態的資訊密度其實極度不平衡:技術性 artifact 很多,但戰略層的 motivation、victimology、跨 actor 關係沒那麼容易穩定抽出,更不用說做一致分析。也因此,這篇論文不是把 CTI 自動化浪漫化,反而更像在提醒:我們一直以為 CTI 的主體是報告內容,但真正卡住分析的,很多時候是 naming、taxonomy 和觀測偏差。
抽取品質:不是完美,但已經高到足以做生態分析
作者對整條抽取管線的驗證結果給出 overall F1 = 0.94。這個數字當然不能直接理解成「所有欄位都完美」,但至少代表一件關鍵的事:在有嚴格前後處理、標準化和限制 schema 的條件下,LLM 已經足夠把大量 CTI 文本推進到可做宏觀統計分析的程度。
論文也很誠實地點出風險:模型有時會傾向用外部知識補標籤,這在 CTI 很危險。因為你以為自己在抽 report 內文,其實模型可能偷偷把它「知道」的 actor 背景也一起帶進來。對做資料集的人來說,這不是小誤差,而是會污染 ground truth 的系統性問題。
這點我覺得很值得記。很多 CTI / AI 研究現在都在追求更高 extraction score,但真正重要的其實是:模型產出的東西,到底是 report-grounded,還是 model-prior-grounded? 這篇論文至少有把這條界線當成真的問題來處理。
威脅生態的長期變化:從 malware 報告到戰略情資
作者把二十年的 open-source CTI 報告大致看成三個時期:
- 2000–2010:起步期
- 2011–2019:擴張期,報告數量快速成長
- 2020–之後:高峰期,持續成長且焦點開始從惡意程式技術分析,往更戰略的 intelligence 擴張
這個觀察很重要。它表示 CTI 報導的演化不只是「量變多」,而是 敘事層級在上升。早年很多報告更像 malware report 或 campaign note,現在則更常連到受害產業、地理範圍、攻擊動機與 actor-level narrative。對防守方來說,這是好事;但對研究者來說,這也代表不同年代資料的語意密度其實不能直接橫比。
論文還發現技術指標(IoCs、TTPs)的數量和報告量、vendor 多樣性之間有很強的線性相關(r = 0.93),但戰略資訊沒有同樣的關係。這等於是在說:技術細節會隨報告變多而堆起來,但 motivation、victim profile 這種高層 intelligence 並不會自動跟著完整起來。 這其實非常符合現場直覺。
Actor specialization:很多 threat actor 其實比你想的更窄
論文一個很有意思的結果,是 threat actor landscape 並沒有想像中那麼「萬能」。作者發現:
- 超過 30% 的 actors 只專注在單一 motivation 與單一 victim profile
- 只有大約 7% 顯示出高度跨 sector、跨 motive 的廣泛多樣性
這個結果的含義不只是 threat profiling 而已。它也暗示:如果你的 CTI pipeline 總是把 actor 畫得很全能,很可能不是對手真的那麼泛化,而是資料來源把不同 campaign 的差異壓扁了。 換句話說,公開 CTI 在敘事上容易把 actor 神話化,但資料化之後反而看到更多 specialization。
最值得看的部分:CTI vendor 自己的偏差
整篇最有殺傷力的地方,是作者開始做 meta-intelligence,也就是把 CTI vendor 本身當成分析對象。
他們發現這個生態系高度長尾,而且非常碎片化:
- 88% 的 vendors 是 niche players
- 只有少數 super-vendors 提供相對廣泛的跨 actor、跨地區視野
- 任兩家 vendor 之間的 intelligence overlap 通常都很低
- 就算都寫同一個 actor,寫到的細節與角度也常差很多
這個結論非常關鍵。因為它直接打到很多防守團隊一個默默存在的錯覺:多訂幾份情資源,應該就等於更完整的 situational awareness。 但論文的 marginal coverage analysis 告訴你,情況更複雜——確實,多來源能補洞;但補到某個程度之後,新增來源的邊際收益會下降,而且不同 vendor 的偏差不只來自 coverage,也來自地理與產業視角。
換句話說,CTI aggregation 不是單純疊資料,而是在疊不同觀測儀器的偏見。
這篇論文真正刺中的點:CTI 不是鏡子,是觀測體系
我覺得這篇最好的地方,是它把 CTI 從「內容集合」重新看成「觀測體系」。這會直接改變很多事情的理解方式:
- 某 actor 很常出現在報告裡,不一定代表他最活躍,也可能是最常被幾家大 vendor 看見
- 某產業看起來風險特別高,不一定代表真的被打最多,也可能是該產業更常被報導
- 某地區資訊很稀薄,不一定代表威脅少,可能只是 coverage 弱
- 你 pipeline 裡的 RAG corpus 若只吃少數 vendor,本質上就是把那些 vendor 的偏視角做成系統預設
這也讓這篇論文不只是一篇 dataset paper,而是對整個 CTI automation 浪潮的一次提醒:如果你的 AI 系統是站在偏的資料底座上,那它再會推理,也只是更有效率地複製偏差。
對 CTI / AI 研究的啟示
這篇論文至少丟出三個很實際的啟示:
- 資料來源治理,比模型選型更重要。
先問 corpus 是不是偏,再問 model 強不強。 - report-level extraction 不是終點,source-level meta-analysis 才是下一步。
未來更值得做的,不只是抽 threat objects,而是估 source coverage、source bias、source complementarity。 - RAG for CTI 不能只談 retrieval quality,還要談 retrieval sociology。
你檢索回來的是哪些 vendor 的世界觀,這件事本身就會決定答案長什麼樣。
這也是為什麼這篇雖然表面上不是在做新型 agent、也不是在做 benchmark 刷榜,但其實很值得讀。它補的是整個 CTI/AI 生態最容易被忽略的一層:你以為自己在做 intelligence,其實你先在繼承 intelligence industry 的結構性偏差。
限制與保留
當然,這篇也不是沒有保留:
- 資料雖大,但仍然只覆蓋 open-source CTI,天然不等於真實威脅全貌
- 大量 normalization 仍帶有人工規則,尤其 actor alias consolidation 很難完全中性
- 使用商業 LLM 與 frozen snapshots 雖提升重現性,但仍有供應商依賴
- 不同年代的報告體裁差異很大,長期趨勢分析仍要小心把 reporting evolution 誤當成 threat evolution
但即使有這些限制,我還是會把這篇看成一個很好的轉折點:它不是再問「LLM 可不可以幫忙做 CTI」,而是開始問 「如果真的讓 LLM 進 CTI pipeline,我們該先懷疑哪裡?」
重點整理
- 作者用 LLM-assisted pipeline 分析 20 年、13,308 份 open-source CTI reports。
- 最終建出 CTIRep:12,723 筆 structured records,涵蓋 vendors、actors、motivations、victims、IoCs、TTPs 等欄位。
- 整體抽取品質達 F1 0.94,顯示大規模 CTI structuring 已具實務可行性。
- CTI reporting 長期呈現從技術導向往戰略 intelligence 擴張的趨勢。
- 超過 30% threat actors 高度專注於單一 motivation / victim profile,只有約 7% 顯示廣泛多樣性。
- CTI vendor 生態高度碎片化,88% 為 niche players,vendor 間 overlap 普遍偏低。
- 核心結論不是「哪家最好」,而是:CTI 本身是一個帶有觀測偏差的生態系,不能當成中性真相來源。
Takeaway
如果要用一句話收這篇,我會這樣講:這篇論文真正厲害的,不是把二十年 CTI 報告抽成資料,而是讓大家看見一件不太舒服的事——很多組織以為自己在做 threat intelligence,實際上只是在消化幾個 vendor 各自偏斜的世界模型。
所以它最有價值的地方,不只是 dataset,也不是 extraction score,而是把 CTI/AI 這條線往前推到更成熟的一步:下一代資安 intelligence 系統,不只要會抽、會檢索、會推理,還要知道自己到底是站在誰的視角上看世界。
免責聲明
本文由 AI 產生、整理與撰寫,內容主要依據公開論文、技術文件與可取得之研究資料進行整理、解讀與摘要。雖然已盡力確保內容之完整性與可讀性,仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。實際技術細節、實驗設計與最終結論,仍應以原始論文與作者公開資料為準。
