AgentDojo：评估 LLM 智能体的攻击和防御的动态环境

Jun, 2024

AgentDojo：评估 LLM 智能体的攻击和防御的动态环境

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents

Edoardo Debenedetti, Jie Zhang, Mislav Balunović, Luca Beurer-Kellner, Marc Fischer...

TL;DRAI agents vulnerable to prompt injection attacks are evaluated for adversarial robustness using the AgentDojo framework, which includes realistic tasks, security test cases, and attack and defense paradigms, highlighting the need for new design principles to ensure reliable and robust performance.

Abstract

ai agents aim to solve complex tasks by combining text-based reasoning with external tool calls. Unfortunately, ai agents are vulnerable to prompt injection attacks where data returned by external tools hijacks t

ai agents prompt injection attacks adversarial robustness agentdojo security test cases

发现论文，激发创造

BadAgent：在 LLM 代理中插入和激活后门攻击

利用大型语言模型构建智能代理存在潜在的后门攻击风险，即使在可信数据上进行微调也无法防御，这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。

Jun, 2024

MineDojo：基于互联网规模知识构建开放式具身代理

介绍了建立于 Minecraft 游戏之上的 MineDojo 框架，该框架支持多任务目标环境，同时结合大规模的多模态知识库和灵活可扩展的代理架构，利用大规模的预先训练的视频语言模型作为学习奖励函数的新型代理学习算法，成功解决一系列无需设计的开放式任务。

Jun, 2022

AutoDefense: 多代理 LLM 防御封顶攻击

通过大规模的实验，我们验证了 AutoDefense 对改进对抗越狱攻击的鲁棒性具有有效性，并且能够在正常用户请求时保持性能。

Mar, 2024

InfiAgent-DABench: 数据分析任务中的代理评估

介绍了第一个专门设计用于评估 LLM-based agents 在数据分析任务中的基准测试 InfiAgent-DABench，并收集了 311 个数据分析问题和 23 个最新 LLM 的基准测试结果。

Jan, 2024

使用基于图的网络攻击模拟训练自动化防御策略

实现并评估了一种基于强化学习的自动化网络防御代理程序，该代理以安全警报作为输入并使用强化学习学习执行预定义的防御措施的策略，使用攻击图模拟网络攻击的环境中，被攻击者执行保护任务。该方法通过使用不同大小的攻击图、攻击者攻击策略和不同的检测系统噪声来进行评估。实验表明，通过强化学习训练的防御代理程序的性能优于使用启发式策略的代理程序，并能够概括不同的攻击者策略。

Apr, 2023

自主驾驶代理在 Carla 模拟器中的攻击与故障注入 -- 经验报告

本文阐述了自动驾驶中机器学习应用在大多数驾驶任务中的基础地位，但加入训练有素的代理会使车辆暴露于新型攻击和故障，从而对驾驶任务构成安全威胁；文章实验研究了在驾驶模拟器中注入对抗攻击和软件故障对自主代理的影响，指出对训练有素的代理进行攻击注入和故障注入可能导致错误决策从而严重危及安全。本文提出了一个可行且易于重现的方法，基于开源模拟器和工具，并且旨在明显地促进保护措施和广泛的测试活动的必要性。

Feb, 2022

InjecAgent：在工具集成的大型语言模型代理中评估间接提示注入

通过引入 InjecAgent 基准测试，评估 LLM agents 对 IPI attacks 的脆弱性，结果显示 LLM agents 易受攻击，ReAct-prompted GPT-4 在 24% 的情况下易受攻击，并结合加强的黑客提示进一步提高攻击成功率，对 ReAct-prompted GPT-4 的攻击成功率几乎翻倍。

Mar, 2024

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

WebArena：一个构建自主代理的真实网络环境

建立一个高度逼真和可重现的环境，专注于在网站上执行任务的智能代理，提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。

Jul, 2023

人工智能作为新黑客：为攻击性安全开发代理

在网络安全的广阔领域中，从防御到进攻的转变对保护数字基础设施至关重要，本研究探讨了将人工智能（AI）应用于进攻性网络安全的整合，特别是通过开发一款自主 AI 代理程序 ReaperAI，用于模拟和执行网络攻击，利用大型语言模型（LLMs）如 GPT-4 的能力，ReaperAI 展示了自主识别、利用和分析安全漏洞的潜力，同时还提出了 AI 在网络安全中的道德和操作挑战，以及未来的研究方向。

May, 2024