理解开放域聊天机器人中的多轮有害行为

Jul, 2023

理解开放域聊天机器人中的多轮有害行为

Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots

Bocheng Chen, Guangjing Wang, Hanqing Guo, Yuanda Wang, Qiben Yan

TL;DR设计了一种名为 oxicbot 的新攻击方式，通过对话序列来触发多轮对话中聊天机器人生成有毒回复，使得聊天机器人模型可以被触发生成有毒回复，进而绕过两种防御方法，需要进一步研究解决动态交互环境下聊天机器人的毒性问题。

Abstract

Recent advances in natural language processing and machine learning have led to the development of chatbot models, such as ChatGPT, that can engage in conversational dialogue with human users. However, the ability of these models to generate toxic or harmful responses during a non-toxi

chatbot conversation toxicity attack fine-tuning

发现论文，激发创造

为何如此有毒？：在开放领域聊天机器人中测量和触发有毒行为

本文展示了公共的聊天机器人模型容易提供有毒反应，并出现了一些非有毒查询可以触发有毒反应。通过实验，展示了一个攻击（ToxicBuddy）的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的研究，并展示了 ToxicBuddy 可用作审计工具。

Sep, 2022

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

ToxicChat: 揭示现实世界用户与 AI 对话中的隐含挑战

本研究介绍了 ToxicChat，这是一个基于开源聊天机器人的新型基准，用于揭示现实世界中用户与 AI 交互所面临的挑战，并对现有毒性数据集训练的模型进行了系统评估，揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。

Oct, 2023

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

不予理睬：对话生成模型在攻击性场景中的立场分析

通过对 Reddit 对话情景下的回应训练，研究对话模型响应中的攻击性语言，实验结果表明神经网络对话模型容易学习产生攻击性的回应，使用可控文本生成模型可以减少攻击性回复产生的数量。

Aug, 2021

ChatGPT 中的毒性：分析个性化语言模型

本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题，发现为 ChatGPT 分配一个假想的人物角色（如拳击手穆罕默德・阿里）会显著增加生成结果的亵渎程度，其中涉及不正确的刻板印象、有害的对话和伤人的观点，这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害，并且还存在特定实体（例如某些种族）比其他实体被定位更多的有关问题，这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效，并开发出更好的技术，以实现强大、安全和值信赖任的 AI 系统。

Apr, 2023

细调预训练语言模型用于检测游戏中的垃圾言论

研究探讨了在线游戏中存在的有害行为和恶劣沟通问题，特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息，并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API，收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据，并使用 BERT（基于小写）模型、BERT（基于大写）模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能，本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。

Mar, 2024

机器人网络世界中的聊天机器人

本研究使用问答形式探究网络安全问题，利用 OpenAI 的最新 ChatGPT 模型支持对复杂编码问题的高级理解，试验结果展示这个模型成功地生成了关键记录器、逻辑炸弹、混淆蠕虫和勒索软件等多个编码任务，其能力包括自我复制、自我修改、逃避检测，以及对复杂网络安全目标的战略理解，而令人惊讶的是，在没有图像输入的情况下，ChatGPT 还能够输出模糊或嵌入可执行程序步骤或链接的图像。

Dec, 2022

构建鲁棒的毒性预测模型

最近的自然语言处理文献很少关注毒性语言预测器的稳健性，而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap，通过引入小的单词级扰动来欺骗最先进的文本分类器，将有毒的文本样本预测为良性。ToxicTrap 利用贪婪的搜索策略，实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计，ToxicTrap 可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明，SOTA 的毒性文本分类器确实容易受到这种攻击的影响，在多标签情况下攻击成功率超过 98％。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性，即使面对未知的攻击。

Apr, 2024