Tool Result Parsing 論文閱讀分析:很多 agent 真正該先守的,不是輸入框,而是工具結果回進模型前的那一層
論文基本資訊 論文標題:Defense ...
論文基本資訊 論文標題:Defense ...
本文由 AI 產生、整理與撰寫。 論文基...
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文不是再吹 autonomous SOC,而是研究為什麼很多分析師一開始根本不信任 LLM,以及要如何透過嵌入式田野、共創與持續迭代,把 AI 工具磨成真的有人願意持續使用的 companion tool。
這篇論文真正補的不是又一個 attack 套件,而是把 adversarial robustness evaluation 裡最常自欺的幾件事正面工程化:FOSC 抓 gradient masking、RDI 做 30× 快速 triage、multi-norm worst-case reporting 拆穿平均值幻覺。作者在 RobustBench top-10 models 上發現,worst-case multi-norm robustness 比單看 ℓ∞ 低 23.5 個百分點。
這篇論文真正想補的,不是再做一個會摘要 SOC 告警的 copilot,而是把 perception、anticipatory reasoning 與 risk-based action planning 串成同一條 operational loop,讓安全營運從看懂事件進一步走到比較敢用、也比較不容易亂出手的回應建議。
這篇論文真正補到的,不是再換一顆更強的漏洞模型,而是把 multi-agent harness 本身變成可搜尋、可診斷、可改寫的優化對象。作者提出 AgentFlow,以 typed graph DSL 同時搜尋角色、拓撲、prompt、tool binding 與 coordination protocol,在 TerminalBench-2 拿到 84.3%,並在 Google Chrome 上找到 10 個先前未知、且被廠商接受的 zero-days。
這篇論文真正有價值的,不是說 FIDO2 完全不能被打,而是把攻擊者還能怎麼打拆得很清楚:大多數成功路徑都得先控制受害者裝置、污染 trust store、做 DNS/ARP spoofing,或把使用者逼回較弱的 fallback 流程。也就是說,passkey 的真正優勢不是神奇免疫,而是把原本便宜、可規模化的 phishing 攻擊,推回更昂貴、更難複製的環境劫持模式。
這篇論文真正量出的,不是模型會不會背資安常識,而是它在不同專業層次上的可靠度落差。CyberCertBench 用業界認證題目評估 LLM,結果顯示前沿模型在一般 IT security 題目上已接近人類專家,但一碰到 vendor-specific 細節、OT 場景與 ISA/IEC 62443 這類正式標準知識,表現就明顯掉階。