理解开放域聊天机器人中的多轮有害行为
本文展示了公共的聊天机器人模型容易提供有毒反应,并出现了一些非有毒查询可以触发有毒反应。通过实验,展示了一个攻击(ToxicBuddy)的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的研究,并展示了 ToxicBuddy 可用作审计工具。
Sep, 2022
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。
Nov, 2023
本研究介绍了 ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与 AI 交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。
Oct, 2023
探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题,提出了新的人与模型交互框架及新方法,而不使用外部分类器,在保证模型可用性的同时更安全,实现了自动和人为评估。
Oct, 2020
本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制,提出了一种攻击和防御机制针对对话系统,能够自动触发系统生成毒性语言,同时保持谈话流畅度,并证明了该防御机制不仅有效避免了毒性语言生成,而且可以推广到对话系统之外的语言生成模型。
May, 2022
通过对 Reddit 对话情景下的回应训练,研究对话模型响应中的攻击性语言,实验结果表明神经网络对话模型容易学习产生攻击性的回应,使用可控文本生成模型可以减少攻击性回复产生的数量。
Aug, 2021
本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题,发现为 ChatGPT 分配一个假想的人物角色(如拳击手穆罕默德・阿里)会显著增加生成结果的亵渎程度,其中涉及不正确的刻板印象、有害的对话和伤人的观点,这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害,并且还存在特定实体(例如某些种族)比其他实体被定位更多的有关问题,这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效,并开发出更好的技术,以实现强大、安全和值信赖任的 AI 系统。
Apr, 2023
研究探讨了在线游戏中存在的有害行为和恶劣沟通问题,特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息,并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API,收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据,并使用 BERT(基于小写)模型、BERT(基于大写)模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能,本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。
Mar, 2024
本研究使用问答形式探究网络安全问题,利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解,试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务,其能力包括自我复制、自我修改、逃避检测,以及对复杂网络安全目标的战略理解,而令人惊讶的是,在没有图像输入的情况下,ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。
Dec, 2022
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略,实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计,ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明,SOTA 的毒性文本分类器确实容易受到这种攻击的影响,在多标签情况下攻击成功率超过 98%。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性,即使面对未知的攻击。
Apr, 2024