GuardPhish 論文閱讀分析:很多 open-source LLM 真正危險的,不是看不出 phishing,而是看得出來還是照樣幫你寫
這篇論文真正打掉的,不只是 open-source LLM 會不會被拿去寫 phishing,而是很多團隊把「模型能辨識 phishing intent」誤當成「模型會拒絕生成 phishing 內容」;GuardPhish 證明這兩者中間其實隔著一條很大的 enforcement gap。
2026 年 4 月 21 日
這篇論文真正打掉的,不只是 open-source LLM 會不會被拿去寫 phishing,而是很多團隊把「模型能辨識 phishing intent」誤當成「模型會拒絕生成 phishing 內容」;GuardPhish 證明這兩者中間其實隔著一條很大的 enforcement gap。