Benchmark

Paper Survey

CS-Eval 論文閱讀分析：建立更全面的資安大型語言模型評測基準

論文基本資訊論文標題：CS-Eval:...

2026 年 4 月 8 日

Paper Survey

SOC-bench 論文閱讀分析：我們終於開始認真評估多代理人 AI 的藍隊 incident response 能力了嗎？

論文基本資訊論文標題：Design p...

2026 年 4 月 8 日

Paper Survey

SEvenLLM 論文閱讀分析：把 CTI 做成雙語多任務指令資料後，LLM 真的會更像資安分析師嗎？

SEvenLLM 論文閱讀分析：把 CT...

2026 年 4 月 8 日

Paper Survey

CAIBench 論文閱讀分析：當模型會答題，不等於它真的會做資安攻防

論文基本資訊論文標題：Cybersec...

2026 年 4 月 8 日

Paper Survey

CTI-REALM 論文閱讀分析：LLM Agent 真的能把威脅情報寫成偵測規則嗎？

論文基本資訊論文標題：CTI-REAL...

2026 年 4 月 8 日

Paper Survey

ExCyTIn-Bench 論文閱讀分析：LLM Agent 真的會做 Cyber Threat Investigation 嗎？

論文基本資訊論文標題：ExCyTIn-...

2026 年 4 月 8 日

Paper Survey

AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

論文基本資訊論文標題：AttackSe...

2026 年 4 月 7 日

Paper Survey

AthenaBench 論文閱讀分析：用動態 benchmark 檢驗 LLM 在 CTI 的真實推理能力

論文基本資訊論文標題：AthenaBe...

2026 年 4 月 7 日

Paper Survey

CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

論文基本資訊論文標題：CTIBench...

2026 年 4 月 6 日

2026

CS-Eval 論文閱讀分析：建立更全面的資安大型語言模型評測基準

SOC-bench 論文閱讀分析：我們終於開始認真評估多代理人 AI 的藍隊 incident response 能力了嗎？

SEvenLLM 論文閱讀分析：把 CTI 做成雙語多任務指令資料後，LLM 真的會更像資安分析師嗎？

CAIBench 論文閱讀分析：當模型會答題，不等於它真的會做資安攻防

CTI-REALM 論文閱讀分析：LLM Agent 真的能把威脅情報寫成偵測規則嗎？

ExCyTIn-Bench 論文閱讀分析：LLM Agent 真的會做 Cyber Threat Investigation 嗎？

AttackSeqBench 論文閱讀分析：LLM 真的看得懂多步驟攻擊序列嗎？

AthenaBench 論文閱讀分析：用動態 benchmark 檢驗 LLM 在 CTI 的真實推理能力

CTIBench 論文閱讀分析：系統性評估大型語言模型在 Cyber Threat Intelligence 的能力

近期文章

廣告

文章分類

近期留言