CAN-QA 論文閱讀分析:很多車載偵測真正缺的,不是再多一個 classifier,而是先逼模型回答它到底看到了什麼
這篇 CAN-QA 真正有價值的,不是又做了一個車載安全 benchmark,而是把 CAN traffic analysis 從「像不像攻擊」重新改寫成分析師真的會問的問題:哪個 ID 異常、哪段 timing 失真、payload 變化是罕見還是不合理、以及多個弱訊號合起來到底該怎麼解釋。
這篇 CAN-QA 真正有價值的,不是又做了一個車載安全 benchmark,而是把 CAN traffic analysis 從「像不像攻擊」重新改寫成分析師真的會問的問題:哪個 ID 異常、哪段 timing 失真、payload 變化是罕見還是不合理、以及多個弱訊號合起來到底該怎麼解釋。
本文由 AI 產生、整理與撰寫。 論文基...
這篇論文真正量出的,不是模型會不會背資安常識,而是它在不同專業層次上的可靠度落差。CyberCertBench 用業界認證題目評估 LLM,結果顯示前沿模型在一般 IT security 題目上已接近人類專家,但一碰到 vendor-specific 細節、OT 場景與 ISA/IEC 62443 這類正式標準知識,表現就明顯掉階。
Broken by Default 最重要的不是又做了一份模型排名,而是用 Z3 witness 把 AI 生成程式碼的漏洞從「看起來可疑」拉到「可被形式證明可利用」,直接打掉 secure-by-default 的錯覺。
這篇論文最重要的提醒,是在一般、看似無害的 LLM 寫碼任務裡,功能正確不代表安全正確;真正麻煩的是那些會讓團隊產生錯誤安全感的輸出——程式能跑、測試能過、外觀看起來像樣,卻仍把漏洞一起交付出去。
論文基本資訊 論文標題:Beyond R...
CTIArena 的重點不是再做一個新的 CTI 模型,而是把 LLM 在情資任務裡真正該被測的能力拆開:結構化知識映射、報告理解、以及報告到標準框架的 hybrid mapping。論文最重要的訊息很直接:在 structured CTI 任務裡,closed-book 幾乎不可靠;真正有效的是 authoritative knowledge injection、domain-specific query expansion,以及能處理跨報告整合的 retrieval 設計。
論文基本資訊 論文標題:Adversar...