调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
Aug, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
本文在探讨大语言模型的发展和分发迅速增长的背景下,关注其安全和安全相关威胁和漏洞的最新研究工作,并提供了已有的科学努力概述,以识别和缓解与大语言模型相关的威胁和漏洞。通过我们的工作,希望在资深开发人员和新颖技术用户中增强对大语言模型的局限性和安全问题的意识。
本文研究了如何攻击已有的机器文字生成检测算法,并验证了所有被测试的检测器的鲁棒性。结果表明,开发更加鲁棒的机器文字检测系统有着迫切的需求。
May, 2023
强大的生成型大语言模型 (LLMs) 成为了公众问答系统中流行的工具,而且正在被像儿童这样的弱势群体使用。本文探讨了 LLMs 在在线防止网络诱导方面的有效性,包括通过生成建议来识别和避免诱导,并且通过改变提供的上下文和提示的特异性来研究提示设计对模型性能的影响。通过对超过 6000 个 LLM 的互动进行反思,我们发现没有一个模型明确适用于在线防止网络诱导,行为的一致性缺乏,并且存在潜在的有害答案生成,特别是来自开源模型。我们概述了模型的不足之处,并提出了改进建议,并确定了严重改变模型性能的提示设计,并得出研究结果可用于制定最佳实践使用指南。
Mar, 2024
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
本文对语言生成模型潜在威胁与社会危害进行了调查研究,提供了探查与缓解风险和伤害的实用方法,旨在为大型语言模型研究人员和从业者提供实用指南。
Oct, 2022
人们利用多轮对话诱导大型语言模型生成有害信息的研究揭示了当前大型语言模型的安全机制在复杂场景中存在的脆弱性。
我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例,采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战,并通过实验验证了我们的方法可以控制模型并提供帮助。
Apr, 2024