恶魔天才：深入探究基于 LLM 的智能体的安全性

Nov, 2023

恶魔天才：深入探究基于 LLM 的智能体的安全性

Evil Geniuses: Delving into the Safety of LLM-based Agents

Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su

TL;DR通过对大型语言模型（LLMs）进行安全评估，揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。

Abstract

The rapid advancements in large language models (LLMs) have led to a resurgence in llm-based agents, which demonstrate impressive human-like behaviors and cooperative capabilities in various interactions and stra

large language models llm-based agents safety evaluation malicious attacks vulnerabilities

发现论文，激发创造

警惕您的代理人！调查针对基于 LLM 的代理人的后门威胁

借助大型语言模型（LLMs）的快速发展，已经开发出了基于 LLM 的代理程序，用于处理各种实际应用，包括金融、医疗和购物等。然而，目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁，即 backdoor 攻击，对 LLM-based 代理进行了初步研究，并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示，LLM-based 代理严重受到 backdoor 攻击的影响，表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。

Feb, 2024

将保障放在自治之上：LLM 代理在科学中的风险

通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞，找出潜在的风险、强调对安全措施的需求，以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险，还强调了目前保护科学 Agent 的限制和挑战，并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。

Feb, 2024

LLMs 杀死了脚本小子：大语言模型支持的代理如何改变网络威胁测试的现状

本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力，讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索，以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量，对诱导可操作反应的提示设计进行了评估和启发，并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。

Oct, 2023

概念引导的 LLM 代理用于人工智能安全共设

通过定制化的大型语言模型 (LLM) 代理，采用提示工程、启发式推理和检索增强生成的元素，以保持结构化信息，我们提出了一种高效的混合策略，利用 LLM 进行安全分析和人工智能与人类的协同设计，以提高软件工程和安全工程中的生成式 AI 的质量要求，并确保人类对生成式 AI 提供的建议负责，通过图形表述作为系统模型的中间表示，促进了 LLM 和图形之间的交互，以简化的自动驾驶系统为案例说明了我们的方法。

Apr, 2024

探索基于大型语言模型的智能代理：定义、方法与前景

对基于大型语言模型（LLM）的智能代理进行了深入调查，涵盖了单代理和多代理系统中的定义、研究框架、组成、认知和规划方法、工具利用、对环境反馈的响应，以及在多代理系统中部署 LLM-based 代理的机制，包括多角色协作、信息传递和缓解代理之间通信问题的策略，同时介绍了流行的数据集和应用场景，最后展望了基于 LLM 的代理在人工智能和自然语言处理领域的前景。

Jan, 2024

LLM 会话安全的攻击、防御和评估：一项调研

现在普遍存在大型语言模型在对话应用中的应用。然而，它们被滥用来生成有害回复的风险引起了严重的社会关注，并引发了关于大型语言模型对话安全的最新研究。因此，在这项调查中，我们提供了最近研究的综述，涵盖了大型语言模型对话安全的三个关键方面：攻击、防御和评估。我们的目标是提供一个结构化的概述，以增进对大型语言模型对话安全的理解，并鼓励对这个重要主题进行进一步的研究。为了方便参考，我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。

Feb, 2024

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

AutoDefense: 多代理 LLM 防御封顶攻击

通过大规模的实验，我们验证了 AutoDefense 对改进对抗越狱攻击的鲁棒性具有有效性，并且能够在正常用户请求时保持性能。

Mar, 2024

对 LLM 的越狱攻击进行全面评估

对大型语言模型 (也称为 LLMs) 的滥用进行了研究，发现存在越过社会伦理道德保障的破解攻击，相关研究呈现了不同的破解方法和违规类别，展示了破解提示的攻击效果，以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性，为未来研究提供了启示，并为从业者评估破解攻击提供了基准工具。

Feb, 2024

跳出规则：多轮对话中大型语言模型的安全漏洞

人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。

Feb, 2024