CTI Echo Chamber 論文閱讀分析：真正危險的可能不是情資太少，而是大家其實都在看彼此差不多的地方

2026 年 4 月 11 日

論文基本資訊

論文標題：The CTI Echo Chamber: Fragmentation, Overlap, and Vendor Specificity in Twenty Years of Cyber Threat Reporting
作者：Francesco Marciori、Mauro Conti、Juan Tapiador
年份：2026
來源：arXiv:2602.17458v1
論文連結：https://arxiv.org/abs/2602.17458
主題：Cyber Threat Intelligence、LLM Information Extraction、Meta-Intelligence、Vendor Bias、Threat Reporting、Dataset Construction

這篇 The CTI Echo Chamber 有意思的地方，不是它又做了一個新的 threat report extraction pipeline，而是它反過來問了一個更值得怕的問題：如果整個 open-source CTI 生態本身就高度碎片化、彼此重疊很低、而且每家 vendor 都有自己的地理與產業偏視角，那我們每天以為自己在看「威脅全貌」，其實是不是只是在看幾個觀測孔洞拼出來的幻覺？

這篇論文把焦點從「模型能不能抽對欄位」往上拉到「整個 CTI 產業到底在怎麼看世界」。作者用 LLM 建了一條高精度的結構化抽取管線，處理 13,308 份來自 10 個開放 CTI 來源、跨 20 年的報告，最後得到一個叫 CTIRep 的大規模資料集。真正重要的不是資料量本身，而是這份資料集讓作者第一次可以比較系統性地回答幾件事：誰在寫、在寫誰、寫哪些受害者、用什麼動機框架在描述攻擊，以及不同 vendor 之間到底有多少真正的情報互補。

這篇論文想解決什麼問題？

CTI 領域一直有個很尷尬的結構性問題：公開報告很多，但真正能拿來做長期量化分析的 structured dataset 很少。原因很簡單：

報告格式高度異質，PDF、部落格、報告書、情資卡都有
命名不一致，actor alias、vendor 名稱、地理名稱都很亂
技術細節和戰略語意密度不對稱，IoC 多，不代表 motivation / victimology 也清楚
不同廠商各自看自己擅長或看得到的世界，天然就有 coverage bias

所以這篇論文真正想回答的不是單一 extraction performance，而是三個更大的研究問題：

LLM 能不能把二十年 CTI 報告穩定抽成高品質 structured labels？
如果真的抽出來，長期威脅生態到底長什麼樣？
更重要的是，CTI vendor 自己的觀測偏差有多嚴重？

這個角度很對。因為很多 CTI 自動化研究都預設資料來源本身是中性的，只要模型夠強、schema 夠清楚，就能把 intelligence 自動化。但如果來源世界本來就不是完整的，那後面的模型再厲害，也只是在更有效率地整理偏差。

方法論核心：先把 CTI 報告變成能分析的資料

作者的管線本質上是 LLM-assisted large-scale CTI structuring。高層看可以拆成幾步：

從 10 個開源 CTI 來源蒐集 13,308 份檔案
去重、清理、統一文件格式
先用 LLM 協助建立 taxonomy
再用 reasoning model 對每份報告抽取結構化欄位
最後做大量 post-processing、normalization、人工驗證與統計分析

這裡最值得注意的不是「用了 LLM」，而是作者很清楚知道 只靠 LLM 直接吐答案不夠。他們把很多真正在 CTI 裡麻煩的髒活補上了：像是 vendor 名稱正規化、threat actor alias consolidation、地理名稱合併、分類 taxonomy 壓縮，以及防止模型把外部常識偷偷補進欄位。這些步驟很不 glamorous，但如果沒做，後面的量化分析幾乎都不可信。

資料規模：這篇論文真正有分量的地方

作者最後建出的 CTIRep，規模不小，而且重點是欄位夠多：

12,723 筆 structured records
1,626 個 CTI vendors
2,722 個 threat actors
12 類 attack motivations
254 個 targeted geographies
24 個 victim business sectors
107,611 個 IoCs
833 個 TTPs

這組數字本身就很有訊號。它告訴你 CTI 生態的資訊密度其實極度不平衡：技術性 artifact 很多，但戰略層的 motivation、victimology、跨 actor 關係沒那麼容易穩定抽出，更不用說做一致分析。也因此，這篇論文不是把 CTI 自動化浪漫化，反而更像在提醒：我們一直以為 CTI 的主體是報告內容，但真正卡住分析的，很多時候是 naming、taxonomy 和觀測偏差。

抽取品質：不是完美，但已經高到足以做生態分析

作者對整條抽取管線的驗證結果給出 overall F1 = 0.94。這個數字當然不能直接理解成「所有欄位都完美」，但至少代表一件關鍵的事：在有嚴格前後處理、標準化和限制 schema 的條件下，LLM 已經足夠把大量 CTI 文本推進到可做宏觀統計分析的程度。

論文也很誠實地點出風險：模型有時會傾向用外部知識補標籤，這在 CTI 很危險。因為你以為自己在抽 report 內文，其實模型可能偷偷把它「知道」的 actor 背景也一起帶進來。對做資料集的人來說，這不是小誤差，而是會污染 ground truth 的系統性問題。

這點我覺得很值得記。很多 CTI / AI 研究現在都在追求更高 extraction score，但真正重要的其實是：模型產出的東西，到底是 report-grounded，還是 model-prior-grounded？ 這篇論文至少有把這條界線當成真的問題來處理。

威脅生態的長期變化：從 malware 報告到戰略情資

作者把二十年的 open-source CTI 報告大致看成三個時期：

2000–2010：起步期
2011–2019：擴張期，報告數量快速成長
2020–之後：高峰期，持續成長且焦點開始從惡意程式技術分析，往更戰略的 intelligence 擴張

這個觀察很重要。它表示 CTI 報導的演化不只是「量變多」，而是 敘事層級在上升。早年很多報告更像 malware report 或 campaign note，現在則更常連到受害產業、地理範圍、攻擊動機與 actor-level narrative。對防守方來說，這是好事；但對研究者來說，這也代表不同年代資料的語意密度其實不能直接橫比。

論文還發現技術指標（IoCs、TTPs）的數量和報告量、vendor 多樣性之間有很強的線性相關（r = 0.93），但戰略資訊沒有同樣的關係。這等於是在說：技術細節會隨報告變多而堆起來，但 motivation、victim profile 這種高層 intelligence 並不會自動跟著完整起來。 這其實非常符合現場直覺。

Actor specialization：很多 threat actor 其實比你想的更窄

論文一個很有意思的結果，是 threat actor landscape 並沒有想像中那麼「萬能」。作者發現：

超過 30% 的 actors 只專注在單一 motivation 與單一 victim profile
只有大約 7% 顯示出高度跨 sector、跨 motive 的廣泛多樣性

這個結果的含義不只是 threat profiling 而已。它也暗示：如果你的 CTI pipeline 總是把 actor 畫得很全能，很可能不是對手真的那麼泛化，而是資料來源把不同 campaign 的差異壓扁了。 換句話說，公開 CTI 在敘事上容易把 actor 神話化，但資料化之後反而看到更多 specialization。

最值得看的部分：CTI vendor 自己的偏差

整篇最有殺傷力的地方，是作者開始做 meta-intelligence，也就是把 CTI vendor 本身當成分析對象。

他們發現這個生態系高度長尾，而且非常碎片化：

88% 的 vendors 是 niche players
只有少數 super-vendors 提供相對廣泛的跨 actor、跨地區視野
任兩家 vendor 之間的 intelligence overlap 通常都很低
就算都寫同一個 actor，寫到的細節與角度也常差很多

這個結論非常關鍵。因為它直接打到很多防守團隊一個默默存在的錯覺：多訂幾份情資源，應該就等於更完整的 situational awareness。 但論文的 marginal coverage analysis 告訴你，情況更複雜——確實，多來源能補洞；但補到某個程度之後，新增來源的邊際收益會下降，而且不同 vendor 的偏差不只來自 coverage，也來自地理與產業視角。

換句話說，CTI aggregation 不是單純疊資料，而是在疊不同觀測儀器的偏見。

這篇論文真正刺中的點：CTI 不是鏡子，是觀測體系

我覺得這篇最好的地方，是它把 CTI 從「內容集合」重新看成「觀測體系」。這會直接改變很多事情的理解方式：

某 actor 很常出現在報告裡，不一定代表他最活躍，也可能是最常被幾家大 vendor 看見
某產業看起來風險特別高，不一定代表真的被打最多，也可能是該產業更常被報導
某地區資訊很稀薄，不一定代表威脅少，可能只是 coverage 弱
你 pipeline 裡的 RAG corpus 若只吃少數 vendor，本質上就是把那些 vendor 的偏視角做成系統預設

這也讓這篇論文不只是一篇 dataset paper，而是對整個 CTI automation 浪潮的一次提醒：如果你的 AI 系統是站在偏的資料底座上，那它再會推理，也只是更有效率地複製偏差。

對 CTI / AI 研究的啟示

這篇論文至少丟出三個很實際的啟示：

資料來源治理，比模型選型更重要。
先問 corpus 是不是偏，再問 model 強不強。
report-level extraction 不是終點，source-level meta-analysis 才是下一步。
未來更值得做的，不只是抽 threat objects，而是估 source coverage、source bias、source complementarity。
RAG for CTI 不能只談 retrieval quality，還要談 retrieval sociology。
你檢索回來的是哪些 vendor 的世界觀，這件事本身就會決定答案長什麼樣。

這也是為什麼這篇雖然表面上不是在做新型 agent、也不是在做 benchmark 刷榜，但其實很值得讀。它補的是整個 CTI/AI 生態最容易被忽略的一層：你以為自己在做 intelligence，其實你先在繼承 intelligence industry 的結構性偏差。

限制與保留

當然，這篇也不是沒有保留：

資料雖大，但仍然只覆蓋 open-source CTI，天然不等於真實威脅全貌
大量 normalization 仍帶有人工規則，尤其 actor alias consolidation 很難完全中性
使用商業 LLM 與 frozen snapshots 雖提升重現性，但仍有供應商依賴
不同年代的報告體裁差異很大，長期趨勢分析仍要小心把 reporting evolution 誤當成 threat evolution

但即使有這些限制，我還是會把這篇看成一個很好的轉折點：它不是再問「LLM 可不可以幫忙做 CTI」，而是開始問 「如果真的讓 LLM 進 CTI pipeline，我們該先懷疑哪裡？」

重點整理

作者用 LLM-assisted pipeline 分析 20 年、13,308 份 open-source CTI reports。
最終建出 CTIRep：12,723 筆 structured records，涵蓋 vendors、actors、motivations、victims、IoCs、TTPs 等欄位。
整體抽取品質達 F1 0.94，顯示大規模 CTI structuring 已具實務可行性。
CTI reporting 長期呈現從技術導向往戰略 intelligence 擴張的趨勢。
超過 30% threat actors 高度專注於單一 motivation / victim profile，只有約 7% 顯示廣泛多樣性。
CTI vendor 生態高度碎片化，88% 為 niche players，vendor 間 overlap 普遍偏低。
核心結論不是「哪家最好」，而是：CTI 本身是一個帶有觀測偏差的生態系，不能當成中性真相來源。

Takeaway

如果要用一句話收這篇，我會這樣講：這篇論文真正厲害的，不是把二十年 CTI 報告抽成資料，而是讓大家看見一件不太舒服的事——很多組織以為自己在做 threat intelligence，實際上只是在消化幾個 vendor 各自偏斜的世界模型。

所以它最有價值的地方，不只是 dataset，也不是 extraction score，而是把 CTI/AI 這條線往前推到更成熟的一步：下一代資安 intelligence 系統，不只要會抽、會檢索、會推理，還要知道自己到底是站在誰的視角上看世界。

免責聲明

本文由 AI 產生、整理與撰寫，內容主要依據公開論文、技術文件與可取得之研究資料進行整理、解讀與摘要。雖然已盡力確保內容之完整性與可讀性，仍可能因模型理解限制、資料來源差異或語意轉譯過程而存在疏漏、不精確或更新延遲之處。實際技術細節、實驗設計與最終結論，仍應以原始論文與作者公開資料為準。

CTI Echo Chamber 論文閱讀分析：真正危險的可能不是情資太少，而是大家其實都在看彼此差不多的地方

論文基本資訊

這篇論文想解決什麼問題？

方法論核心：先把 CTI 報告變成能分析的資料

資料規模：這篇論文真正有分量的地方

抽取品質：不是完美，但已經高到足以做生態分析

威脅生態的長期變化：從 malware 報告到戰略情資

Actor specialization：很多 threat actor 其實比你想的更窄

最值得看的部分：CTI vendor 自己的偏差

這篇論文真正刺中的點：CTI 不是鏡子，是觀測體系

對 CTI / AI 研究的啟示

限制與保留

重點整理

Takeaway

免責聲明

發佈留言取消回覆

You may also like

近期文章

廣告

文章分類

近期留言

論文基本資訊

這篇論文想解決什麼問題？

方法論核心：先把 CTI 報告變成能分析的資料

資料規模：這篇論文真正有分量的地方

抽取品質：不是完美，但已經高到足以做生態分析

威脅生態的長期變化：從 malware 報告到戰略情資

Actor specialization：很多 threat actor 其實比你想的更窄

最值得看的部分：CTI vendor 自己的偏差

這篇論文真正刺中的點：CTI 不是鏡子，是觀測體系

對 CTI / AI 研究的啟示

限制與保留

重點整理

Takeaway

免責聲明

發佈留言 取消回覆

You may also like

Cross-Session Threats 論文閱讀分析：很多 agent 真正缺的，不是更大的 context，而是別把碎片當安全

博士學位交戰守則：願你在漫長戰役中，仍能守住自己的旗

近期文章

廣告

文章分類

近期留言

發佈留言取消回覆