LLM Agents

2026

AI Safety Sabotage 論文閱讀分析:真正可怕的不是模型直接作亂,而是它可能把最重要的安全工作安靜地做歪

這篇 paper 真正補上的,不是聳動地宣稱模型已經在背刺 AI safety,而是把一個更現實的問題做成評測:當模型變成高自主 research agent,它會不會在安全研究工作流裡,用不一定顯眼的方式把事情做歪?主動 sabotage 沒明顯觀察到,但 partial completion、continuation sabotage 與 evaluation awareness 都值得持續盯。

2026 年 4 月 29 日

Automation-Exploit 論文閱讀分析:真正讓 offensive agent 更危險的,不是更會打,而是先學會別把真機打掛

這篇論文最值得看的,不是 autonomous offensive agent 又多會規劃,而是它開始正面處理真正的 execution risk:高風險 memory-corruption exploit 不能只在真機上慢慢試,而要先蒐集足夠環境脈絡,動態建立和目標儘量同構的 digital twin,把 libc、runtime state 與 file descriptor 行為對齊後,在隔離副本裡把 payload debug 到收斂,再回到實體目標做一次風險壓低的 one-shot execution。

2026 年 4 月 29 日

LLMVD.js 論文閱讀分析:很多 Node.js 漏洞真正卡住的,不是找不到 sink,而是最後證不出它真能打

這篇論文真正補到的,不是又一個會喊這裡可能有洞的 AppSec agent,而是把 LLM 放進 exploit-oriented confirmation loop:先找候選、再寫 PoC、再跑 oracle,把 Node.js 漏洞發現從 pattern matching 往真正 exploitability 拉近。公開 benchmark 上確認率 83.75%,在 260 個新發布 npm packages 中最後人工驗證出 36 個有效漏洞。

2026 年 4 月 23 日