TroubleLLM: 与红队专家对齐
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
Aug, 2023
本文探讨大型语言模型在多语言环境中的安全挑战,并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应,我们发现低资源语言中的恶意提示往往导致不安全的回答,并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外,我们发现提高模型对高资源语言的训练并没有带来显著改善,表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战,并希望这些发现能指导未来的研究。
Jan, 2024
通过使用一组检测器,我们提出了 “LLMGuard”,这是一个监视用户与 LLM 应用程序交互并对内容进行标记的工具,以应对大型语言模型在企业环境中带来的新机遇和挑战。
Feb, 2024
我们的研究旨在针对恶意文件开发强大的大型语言模型(LLMs)防御机制,并通过指导调整来提高它们处理危险内容的能力,同时维持其效用和安全之间的平衡。在我们的实证结果中,LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外,加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡,其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。
May, 2024
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
May, 2024
大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关,然而它们在引入的同时也伴随着固有的风险,包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性,为了避免潜在的危害,本研究探讨了部署 LLMs 所面临的风险,并评估了目前实施防护和模型对齐技术的方法,从固有和外在偏见评估方法入手,并讨论了公平度度量方法,还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性,强调了可测试性、故障保护和情境意识的需求,还提出了保护 LLMs 的技术策略,包括操作在外部、次要和内部层次的分层保护模型,突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术,有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素,在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战,本研究强调了持续研究和开发的重要性,以确保 LLMs 在实际应用中的安全和负责任使用。
Jun, 2024