Benchmark

2026

CTIArena 論文閱讀分析:當 CTI 真的變成多來源推理問題,光靠模型背答案早就不夠了

CTIArena 的重點不是再做一個新的 CTI 模型,而是把 LLM 在情資任務裡真正該被測的能力拆開:結構化知識映射、報告理解、以及報告到標準框架的 hybrid mapping。論文最重要的訊息很直接:在 structured CTI 任務裡,closed-book 幾乎不可靠;真正有效的是 authoritative knowledge injection、domain-specific query expansion,以及能處理跨報告整合的 retrieval 設計。

2026 年 4 月 18 日

MSB 論文閱讀分析:當 MCP 真正把工具變成 AI 的行動介面,最危險的往往不是單一惡意 prompt,而是整條 tool-use pipeline 都能被接管

這篇論文最有價值的地方,不是再證明一次 MCP 有風險,而是把風險拆成整條 tool-use pipeline:從工具發現、工具選擇、參數帶入,到 tool response 與 retrieval content 回灌上下文,全部都可能成為攻擊面。MSB 用真實 MCP 工具與 2,000 個 attack instances 告訴你:真正該防的不是單一毒 prompt,而是整個 agent runtime control plane。

2026 年 4 月 18 日