AgentPoison: 通过缓冲区或知识库污染来对抗语言模型代理
基于任务查询构建动态交互结构的大型语言模型代理网络(DyLAN)在推理和代码生成任务中展现出良好性能,使用无监督度量的自动代理团队优化算法根据每个代理的贡献选择最佳代理,相较于GPT-35-turbo的单次执行,DyLAN在MATH和HumanEval任务上分别实现了13.0%和13.3%的改进,并在MMLU特定主题上提高了25.0%的准确率。
Oct, 2023
借助大型语言模型(LLMs)的快速发展,已经开发出了基于LLM的代理程序,用于处理各种实际应用,包括金融、医疗和购物等。然而,目前LLM-based代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁,即backdoor攻击,对LLM-based代理进行了初步研究,并提出了相应的数据污染机制来实施代理程序的backdoor攻击。广泛的实验结果显示,LLM-based代理严重受到backdoor攻击的影响,表明迫切需要进一步研究防御LLM-based代理的backdoor攻击。
Feb, 2024
利用大型语言模型构建智能代理存在潜在的后门攻击风险,即使在可信数据上进行微调也无法防御,这可能是第一项关于带有外部工具权限的大型语言模型代理的研究。
Jun, 2024
大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了GuardAgent作为LLM代理的守卫,通过检查输入/输出是否满足用户定义的一组保护要求来监督目标LLM代理,从而增强其安全性。GuardAgent具有可扩展的工具箱、无需额外的LLM训练,并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的98.7%和90.0%的准确性。
Jun, 2024
AI agents vulnerable to prompt injection attacks are evaluated for adversarial robustness using the AgentDojo framework, which includes realistic tasks, security test cases, and attack and defense paradigms, highlighting the need for new design principles to ensure reliable and robust performance.
Jun, 2024
通过构建详细的威胁模型和真实环境模拟,本文提出了一种新的两阶段攻击方法,包括说服力注入和操纵性知识注入,系统地探索了操纵性知识(例如假设性和有毒的知识)在基于大规模语言模型的多主体系统中的传播潜力。通过广泛的实验,展示了攻击方法能够成功诱导基于大规模语言模型的智能体传播假设性和有毒的知识,并且这种操纵可以在互动结束后继续影响智能体,进一步揭示了基于大规模语言模型的多主体系统中存在的重大安全风险,强调了对抗操纵性知识传播的强大防御措施的迫切性。
Jul, 2024
本研究解决了自动化红队测试在大型语言模型中未能有效模拟用户交互方式的问题。提出的生成性进攻代理测试者(GOAT)通过模拟自然语言对话并使用多种对抗提示技术,自动识别大型语言模型的脆弱性。实验结果表明,GOAT在检测新型风险方面表现出色,达到JailbreakBench数据集上对Llama 3.1和GPT-4的ASR@10分别为97%和88%。
Oct, 2024
本文解决了现有文献中对基于大型语言模型(LLM)的代理攻击与防御评估不全面的问题。提出的“代理安全基准”(ASB)框架形式化、基准化与评估LLM代理的攻击与防御,发现了不同阶段的关键漏洞,攻击成功率高达84.30%。此项研究为代理安全领域的重要问题提供了新的洞见与挑战。
Oct, 2024
本研究解决了当前对 LLM 代理在被恶意使用情况下的鲁棒性研究不足的问题。提出的新基准 AgentHarm 包含多种恶意任务,能够评估 LLM 代理在面临攻击时的表现及应对能力。研究发现,多款领先的 LLM 对恶意请求的响应令人惊讶地顺从,且简单的破解模板能够有效激发代理的恶意行为,为后续研究提供了重要参考。
Oct, 2024
本研究解决了大型语言模型(LLM)代理在被滥用时的安全性评估差距。提出的AgentHarm基准通过多样化的恶意代理任务,评估模型拒绝有害请求的能力,同时测试在攻击后的多步骤任务执行能力。研究发现,现有领先的LLM对恶意请求表现出意外的顺从性,从而凸显了这一问题的紧迫性和严重性。
Oct, 2024