2026
論文閱讀分析:真正危險的 indirect prompt injection,往往不是讓 Agent 說錯話,而是做錯事後還看起來一切正常
論文基本資訊 論文標題:How Vuln...
2026 年 4 月 18 日
Meerkat 論文閱讀分析:真正該被稽核的,也許不是單條 Agent trace,而是整批 traces 一起透露出的違規模式
論文基本資訊 論文標題:Detectin...
2026 年 4 月 18 日
SafeHarness 論文閱讀分析:真正該被保護的,也許不只是模型輸入輸出,而是整條 Agent execution harness 的生命週期
論文基本資訊 論文標題:SafeHarn...
2026 年 4 月 18 日
AgentWatcher 論文閱讀分析:真正該被檢查的,也許不是整份長上下文,而是那幾段已經開始接管 Agent 下一步的內容
本文由 AI 產生、整理與撰寫。 論文基...
2026 年 4 月 18 日
STARS 論文閱讀分析:真正該補的也許不是再多一次靜態審查,而是每次 skill invocation 當下的風險排序
論文基本資訊 論文標題:Skill-Tr...
2026 年 4 月 18 日
MCP Client 論文閱讀分析:真正危險的不是 AI IDE 會不會寫錯,而是你以為它只是在幫你開發,其實它已經開始替外部內容執行命令
論文基本資訊 論文標題:Are AI-a...
2026 年 4 月 17 日
AttackSeqBench 論文閱讀分析:當 CTI 真正要幫你看懂攻擊全貌,模型就不能只會背單點知識,還得讀懂整條攻擊序列
AttackSeqBench 把 CTI benchmark 從單點知識問答往前推到 sequence-level reasoning:真正重要的不只是模型知不知道某個 ATT&CK technique,而是它能不能理解 tactic、technique 與 procedure 在真實攻擊流程中的先後、依賴與一致性。
2026 年 4 月 17 日
