LLM Agents

2026

Cyber Defense Benchmark 論文閱讀分析:很多 SOC AI 真正還不會的,不是回答安全問題,而是自己把惡意事件從海量 log 裡找出來

Cyber Defense Benchmark 這篇最重要的,不是又多一個 cyber benchmark,而是把 LLM agent 丟回真正像 SOC 的 open-ended threat hunting 任務:面對數萬到十幾萬筆 Windows logs,自己用 SQL 找出惡意事件時間點。結果五個 frontier models 全面失手,最佳模型平均也只找對 3.8% 惡意事件。

2026 年 4 月 22 日

PoC-Adapt 論文閱讀分析:真正讓漏洞 AI 變得比較像工程系統的,往往不是它會不會生 exploit,而是它知不知道自己到底有沒有真的打中

PoC-Adapt 最關鍵的洞見是:自動漏洞重現真正卡住的,常常不是 exploit generation,而是 exploit verification。只看 crash、log 或 return code 這類表面訊號,很容易把 incidental behavior 當成成功;PoC-Adapt 用 Semantic Oracle 比對 pre/post execution 的結構化系統狀態,再配合 Adaptive Policy Learning 減少 trial-and-error,讓整條漏洞重現流程更像可靠的工程閉環。

2026 年 4 月 21 日

RAVEN 論文閱讀分析:真正卡住漏洞 AI 落地的,往往不是找不到洞,而是寫不出一份像樣的漏洞根因報告

RAVEN 這篇真正補上的,不是另一個會找 bug 的模型,而是把「找到漏洞」與「寫成可交付的根因報告」之間那段常被忽略的 documentation gap 拉成正式研究問題。它把 Explorer、RAG、Analyst、Reporter 拆成多代理流程,想讓 memory corruption 分析更接近 analyst-grade RCA,而不是只停在一句這裡可能有 overflow。

2026 年 4 月 21 日

Towards Agentic Honeynet Configuration 論文閱讀分析:真正高產的誘捕系統,未必是掛最多假服務的那個,而是最會在對的時間露出對的 bait

Towards Agentic Honeynet Configuration 真正有意思的,不是把 LLM 塞進 honeypot,而是把 honeynet 變成會根據 IDS 與攻擊進度動態調整暴露面的 intelligence collection system:有限預算下,重點不是露出更多假服務,而是持續露出攻擊者此刻最想咬的那一口。

2026 年 4 月 21 日

Frontier LLM Offensive Cyber Benchmark 論文閱讀分析:真正把 agent 表現往上推的,常常不是 prompt,而是它手邊到底有沒有一個像樣的 Kali 工作台

這篇論文最值得看的,不是哪家模型又贏了幾題,而是它把 offensive cyber agent 的主因拆出來量:在同一個多代理框架與 200 題 NYU CTF Bench 下,Kali 工具環境比普通 Ubuntu 多出 9.5 個百分點 solve rate;反而很多看似聰明的 prompt engineering,在工具夠齊時只會把 agent 綁手綁腳。真正決定 agent 上限的,往往不是 prompt 花樣,而是 runtime substrate 有沒有先長對。

2026 年 4 月 21 日