Runtime Security

ShieldNet 論文閱讀分析：當惡意 Agent Tool 表面看起來很乾淨，真正洩漏真相的往往是它背後那串網路流量

ShieldNet 真正重要的觀點，是供應鏈型 agent 攻擊未必會把惡意意圖寫進 tool description、schema 或對話紀錄裡。當風險藏在第三方工具實作與依賴中時，與其一直盯著 agent 說了什麼，不如回到 execution 期間的 network side effects，看它到底向哪裡連、送了什麼、做了哪些不該做的事。

2026 年 4 月 18 日

Paper Survey

Defense Trilemma 論文閱讀分析：如果你的 prompt injection 防線本質上只是 wrapper，那它很可能從一開始就不可能又保留效用、又連續穩定、又把風險清乾淨

Defense Trilemma 論文閱...

2026 年 4 月 18 日

Paper Survey

BadSkill 論文閱讀分析：真正危險的 skill，可能根本不是寫了什麼壞指令，而是裡面那顆模型早就被訓成了內鬼

論文基本資訊論文標題：BadSkill...

2026 年 4 月 18 日

Paper Survey

ICON 論文閱讀分析：真正該修的也許不是那段髒資料，而是 Agent 已經被它拉歪的注意力軌跡

論文基本資訊論文標題：Indirect...

2026 年 4 月 18 日

Paper Survey

論文閱讀分析：真正危險的 indirect prompt injection，往往不是讓 Agent 說錯話，而是做錯事後還看起來一切正常

論文基本資訊論文標題：How Vuln...

2026 年 4 月 18 日

Paper Survey

SafeHarness 論文閱讀分析：真正該被保護的，也許不只是模型輸入輸出，而是整條 Agent execution harness 的生命週期

論文基本資訊論文標題：SafeHarn...

2026 年 4 月 18 日

Paper Survey

Prompt Injection Threat Landscape 論文閱讀分析：很多 Agent 防禦之所以看起來有效，可能只是因為它們先把真正重要的上下文一起擋掉了

本文由 AI 產生、整理與撰寫。 Pro...

2026 年 4 月 17 日

Paper Survey

Cybersecurity AI 論文閱讀分析：當 AI 資安工具開始自己打漏洞，最危險的反而可能是目標主機回給它看的那段內容

這篇論文把 prompt injection 拉進 AI-powered cybersecurity tools 的實戰場景：當 security agent 去掃描與利用惡意目標時，對方回傳的內容本身就可能變成控制訊號。作者在 14 種 attack variants 上觀察到 100% 成功率，並指出從初始接觸到 compromise 可以在 20 秒內完成。

2026 年 4 月 17 日

Paper Survey

Silent Egress 論文閱讀分析：當 Agent 看起來什麼都沒說錯，資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是：在 agent 系統裡，真正危險的 prompt injection 不一定會反映在最後輸出文字上，而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁，敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

Paper Survey

Silent Egress 論文閱讀分析：當 Agent 看起來什麼都沒說錯，資料卻可能早就在你沒注意的那一步悄悄送出去了

這篇論文最值得記住的重點是：在 agent 系統裡，真正危險的 prompt injection 不一定會反映在最後輸出文字上，而可能藏在自動 URL preview、metadata 擷取與工具呼叫造成的 network egress。當使用者看起來只是在請 agent 摘要網頁，敏感 runtime context 卻可能已經被分片、低噪音地往外送出。

2026 年 4 月 17 日

2026

ShieldNet 論文閱讀分析：當惡意 Agent Tool 表面看起來很乾淨，真正洩漏真相的往往是它背後那串網路流量

Defense Trilemma 論文閱讀分析：如果你的 prompt injection 防線本質上只是 wrapper，那它很可能從一開始就不可能又保留效用、又連續穩定、又把風險清乾淨

BadSkill 論文閱讀分析：真正危險的 skill，可能根本不是寫了什麼壞指令，而是裡面那顆模型早就被訓成了內鬼

ICON 論文閱讀分析：真正該修的也許不是那段髒資料，而是 Agent 已經被它拉歪的注意力軌跡

論文閱讀分析：真正危險的 indirect prompt injection，往往不是讓 Agent 說錯話，而是做錯事後還看起來一切正常

SafeHarness 論文閱讀分析：真正該被保護的，也許不只是模型輸入輸出，而是整條 Agent execution harness 的生命週期

Prompt Injection Threat Landscape 論文閱讀分析：很多 Agent 防禦之所以看起來有效，可能只是因為它們先把真正重要的上下文一起擋掉了

Cybersecurity AI 論文閱讀分析：當 AI 資安工具開始自己打漏洞，最危險的反而可能是目標主機回給它看的那段內容

Silent Egress 論文閱讀分析：當 Agent 看起來什麼都沒說錯，資料卻可能早就在你沒注意的那一步悄悄送出去了

Silent Egress 論文閱讀分析：當 Agent 看起來什麼都沒說錯，資料卻可能早就在你沒注意的那一步悄悄送出去了

近期文章

廣告

文章分類

近期留言