Benchmark
2026
BackdoorAgent 論文閱讀分析:真正危險的不是單步被騙,而是 trigger 沿著 agent workflow 一路活到最後
本文由 AI 產生、整理與撰寫。 論文基...
WASP 論文閱讀分析:現在很多 Web Agent 之所以還沒真的把你害慘,不是因為它們夠安全,而是因為它們還不夠能幹
WASP 論文閱讀分析:現在很多 Web...
Offensive Security Agent 架構論文閱讀分析:很多系統真正缺的,不是再多幾個分身,而是先知道什麼時候單兵就夠
這篇論文真正有價值的地方,不是再證明 multi-agent 可以做 offensive security,而是把 agent 拓樸選型做成可比較的 benchmark:在 600 runs 裡,MAS-Indep 以 64.2% validated detection 拿下 coverage 端最佳表現,但 SAS 以 53 秒 median TTFV 與每個 validated finding 僅 0.058 美元成為效率錨點,說明多代理不是越複雜越好,真正該優化的是 observability、domain difficulty 與 coordination overhead 之間的折衝。
CTF Agent 論文閱讀分析:真正該量的不是 AI 有沒有一把梭拿到 root,而是它沿著攻擊鏈到底推進了多遠
DeepRed 這篇真正重要的不是又多做一份 CTF 排名,而是把 autonomous offensive agent 的能力從 solved/unsolved 拉成可量的攻擊鏈進度,讓大家看見「部分自治」本身就是風險訊號。
SIR-Bench 論文閱讀分析:真正像樣的 IR Agent,不是先把結論講漂亮,而是真的會往 alert 外面繼續挖證據
論文基本資訊 論文標題:Evaluati...
Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來
Cyber Defense Benchmark 這篇最重要的,不是又多一個 cyber benchmark,而是把 LLM agent 丟回真正像 SOC 的 open-ended threat hunting 任務:面對數萬到十幾萬筆 Windows logs,自己用 SQL 找出惡意事件時間點。結果五個 frontier models 全面失手,最佳模型平均也只找對 3.8% 惡意事件。
HWE-Bench 論文閱讀分析:真正難的不是叫 AI 會寫 Verilog,而是讓它在完整硬體專案裡把真 bug 修到真的過
HWE-Bench 真正重要的,不是測模型會不會寫 HDL,而是把它丟進完整硬體 repository、原生 simulation 與多層 artifact 耦合裡,看 agent 到底能不能把真實 bug 修到真的過。
HarmfulSkillBench 論文閱讀分析:真正危險的 skill,未必會偷你的資料,它也可能只是把壞事包成一鍵可裝的能力
這篇論文真正補上的,不是 skill 裡有沒有 prompt injection,而是另一個更容易被低估的面向:如果 skill 本身的 intended functionality 就是 cyber attack、詐欺、隱私侵犯或高風險決策自動化,那 agent 其實是在被公開 skill 生態系統化地武裝。
SIR-Bench 論文閱讀分析:真正像樣的 IR Agent,不是先把結論講漂亮,而是真的會往 alert 外面繼續挖證據
論文基本資訊 論文標題:Evaluati...
