LLM Evaluation

2026

CyberCertBench 論文閱讀分析:很多模型真正危險的,不是完全不懂資安,而是只懂到足以讓你放下戒心

這篇論文真正量出的,不是模型會不會背資安常識,而是它在不同專業層次上的可靠度落差。CyberCertBench 用業界認證題目評估 LLM,結果顯示前沿模型在一般 IT security 題目上已接近人類專家,但一碰到 vendor-specific 細節、OT 場景與 ISA/IEC 62443 這類正式標準知識,表現就明顯掉階。

2026 年 4 月 23 日

CTIArena 論文閱讀分析:當 CTI 真的變成多來源推理問題,光靠模型背答案早就不夠了

CTIArena 的重點不是再做一個新的 CTI 模型,而是把 LLM 在情資任務裡真正該被測的能力拆開:結構化知識映射、報告理解、以及報告到標準框架的 hybrid mapping。論文最重要的訊息很直接:在 structured CTI 任務裡,closed-book 幾乎不可靠;真正有效的是 authoritative knowledge injection、domain-specific query expansion,以及能處理跨報告整合的 retrieval 設計。

2026 年 4 月 18 日