恶魔天才:深入探究基于 LLM 的智能体的安全性
借助大型语言模型(LLMs)的快速发展,已经开发出了基于 LLM 的代理程序,用于处理各种实际应用,包括金融、医疗和购物等。然而,目前 LLM-based 代理的安全问题尚未得到充分研究。本研究首先调查了一种典型的安全威胁,即 backdoor 攻击,对 LLM-based 代理进行了初步研究,并提出了相应的数据污染机制来实施代理程序的 backdoor 攻击。广泛的实验结果显示,LLM-based 代理严重受到 backdoor 攻击的影响,表明迫切需要进一步研究防御 LLM-based 代理的 backdoor 攻击。
Feb, 2024
通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学 Agent 的限制和挑战,并呼吁针对这些问题制定改进模型、鲁棒基准和全面规定。
Feb, 2024
本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力,讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索,以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量,对诱导可操作反应的提示设计进行了评估和启发,并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。
Oct, 2023
通过定制化的大型语言模型 (LLM) 代理,采用提示工程、启发式推理和检索增强生成的元素,以保持结构化信息,我们提出了一种高效的混合策略,利用 LLM 进行安全分析和人工智能与人类的协同设计,以提高软件工程和安全工程中的生成式 AI 的质量要求,并确保人类对生成式 AI 提供的建议负责,通过图形表述作为系统模型的中间表示,促进了 LLM 和图形之间的交互,以简化的自动驾驶系统为案例说明了我们的方法。
Apr, 2024
对基于大型语言模型(LLM)的智能代理进行了深入调查,涵盖了单代理和多代理系统中的定义、研究框架、组成、认知和规划方法、工具利用、对环境反馈的响应,以及在多代理系统中部署 LLM-based 代理的机制,包括多角色协作、信息传递和缓解代理之间通信问题的策略,同时介绍了流行的数据集和应用场景,最后展望了基于 LLM 的代理在人工智能和自然语言处理领域的前景。
Jan, 2024
现在普遍存在大型语言模型在对话应用中的应用。然而,它们被滥用来生成有害回复的风险引起了严重的社会关注,并引发了关于大型语言模型对话安全的最新研究。因此,在这项调查中,我们提供了最近研究的综述,涵盖了大型语言模型对话安全的三个关键方面:攻击、防御和评估。我们的目标是提供一个结构化的概述,以增进对大型语言模型对话安全的理解,并鼓励对这个重要主题进行进一步的研究。为了方便参考,我们根据我们的分类法对本调查中提到的所有研究进行了分类。分类信息可在此 https URL 查看。
Feb, 2024
该研究对破解大型语言模型(LLMs)及其防御技术进行了全面分析,评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果,并释放了数据集和测试框架,以促进 LLM 安全领域的进一步研究。
Feb, 2024
对大型语言模型 (也称为 LLMs) 的滥用进行了研究,发现存在越过社会伦理道德保障的破解攻击,相关研究呈现了不同的破解方法和违规类别,展示了破解提示的攻击效果,以及破解攻击与模型之间的转移性。这一研究强调了对不同破解方法进行评估的必要性,为未来研究提供了启示,并为从业者评估破解攻击提供了基准工具。
Feb, 2024