Mastiporuto Senia

2026

AUTO-ART 論文閱讀分析:很多模型安全真正缺的,不是再多跑幾個 attack,而是先審評測是不是在騙你

這篇論文真正補的不是又一個 attack 套件,而是把 adversarial robustness evaluation 裡最常自欺的幾件事正面工程化:FOSC 抓 gradient masking、RDI 做 30× 快速 triage、multi-norm worst-case reporting 拆穿平均值幻覺。作者在 RobustBench top-10 models 上發現,worst-case multi-norm robustness 比單看 ℓ∞ 低 23.5 個百分點。

2026 年 4 月 23 日

AgentFlow 論文閱讀分析:很多漏洞 AI 真正缺的,不是更強模型,而是更會編隊的 harness

這篇論文真正補到的,不是再換一顆更強的漏洞模型,而是把 multi-agent harness 本身變成可搜尋、可診斷、可改寫的優化對象。作者提出 AgentFlow,以 typed graph DSL 同時搜尋角色、拓撲、prompt、tool binding 與 coordination protocol,在 TerminalBench-2 拿到 84.3%,並在 Google Chrome 上找到 10 個先前未知、且被廠商接受的 zero-days。

2026 年 4 月 23 日

FIDO2 論文閱讀分析:很多 passkey 真正厲害的,不是完全打不破,而是把攻擊者逼回更貴的世界

這篇論文真正有價值的,不是說 FIDO2 完全不能被打,而是把攻擊者還能怎麼打拆得很清楚:大多數成功路徑都得先控制受害者裝置、污染 trust store、做 DNS/ARP spoofing,或把使用者逼回較弱的 fallback 流程。也就是說,passkey 的真正優勢不是神奇免疫,而是把原本便宜、可規模化的 phishing 攻擊,推回更昂貴、更難複製的環境劫持模式。

2026 年 4 月 23 日

CyberCertBench 論文閱讀分析:很多模型真正危險的,不是完全不懂資安,而是只懂到足以讓你放下戒心

這篇論文真正量出的,不是模型會不會背資安常識,而是它在不同專業層次上的可靠度落差。CyberCertBench 用業界認證題目評估 LLM,結果顯示前沿模型在一般 IT security 題目上已接近人類專家,但一碰到 vendor-specific 細節、OT 場景與 ISA/IEC 62443 這類正式標準知識,表現就明顯掉階。

2026 年 4 月 23 日