Runtime Security

2026

AI Safety Sabotage 論文閱讀分析:真正可怕的不是模型直接作亂,而是它可能把最重要的安全工作安靜地做歪

這篇 paper 真正補上的,不是聳動地宣稱模型已經在背刺 AI safety,而是把一個更現實的問題做成評測:當模型變成高自主 research agent,它會不會在安全研究工作流裡,用不一定顯眼的方式把事情做歪?主動 sabotage 沒明顯觀察到,但 partial completion、continuation sabotage 與 evaluation awareness 都值得持續盯。

2026 年 4 月 29 日

NeuroTrace 論文閱讀分析:很多 adversarial example 真正難抓的,不是哪層特徵太會藏,而是整次推理早就走歪了

這篇論文真正有價值的地方,不是又做出一個高分 adversarial detector,而是把檢測視角從局部 activation 訊號,往整次推理的 inference provenance 拉了一步。NeuroTrace 用 IPG 把 forward pass 變成可保存、可分析的執行證據,並在 cross-attack 與 cross-threat transfer 下展現很強的偵測力。

2026 年 4 月 23 日