为何如此有毒？：在开放领域聊天机器人中测量和触发有毒行为

Sep, 2022

为何如此有毒？：在开放领域聊天机器人中测量和触发有毒行为

Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots

Wai Man Si, Michael Backes, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini...

TL;DR本文展示了公共的聊天机器人模型容易提供有毒反应，并出现了一些非有毒查询可以触发有毒反应。通过实验，展示了一个攻击（ToxicBuddy）的有效性和三种防御机制对其的影响。该研究强调了保障聊天机器人的安全性需要更多的计算机安全和在线安全社区的研究，并展示了 ToxicBuddy 可用作审计工具。

Abstract

chatbots are used in many applications, e.g., automated agents, smart home assistants, interactive characters in online games, etc. Therefore, it is crucial to ensure they do not behave in undesired manners, providing offensive or toxic responses to users. This is not a trivial task as

chatbots toxicity attack defense mechanisms chatbot safety

发现论文，激发创造

理解开放域聊天机器人中的多轮有害行为

设计了一种名为 oxicbot 的新攻击方式，通过对话序列来触发多轮对话中聊天机器人生成有毒回复，使得聊天机器人模型可以被触发生成有毒回复，进而绕过两种防御方法，需要进一步研究解决动态交互环境下聊天机器人的毒性问题。

Jul, 2023

ToxicChat: 揭示现实世界用户与 AI 对话中的隐含挑战

本研究介绍了 ToxicChat，这是一个基于开源聊天机器人的新型基准，用于揭示现实世界中用户与 AI 交互所面临的挑战，并对现有毒性数据集训练的模型进行了系统评估，揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。

Oct, 2023

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

ChatGPT 中的毒性：分析个性化语言模型

本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题，发现为 ChatGPT 分配一个假想的人物角色（如拳击手穆罕默德・阿里）会显著增加生成结果的亵渎程度，其中涉及不正确的刻板印象、有害的对话和伤人的观点，这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害，并且还存在特定实体（例如某些种族）比其他实体被定位更多的有关问题，这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效，并开发出更好的技术，以实现强大、安全和值信赖任的 AI 系统。

Apr, 2023

细调预训练语言模型用于检测游戏中的垃圾言论

研究探讨了在线游戏中存在的有害行为和恶劣沟通问题，特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息，并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API，收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据，并使用 BERT（基于小写）模型、BERT（基于大写）模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能，本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。

Mar, 2024

使用 BERT 的游戏内聊天毒性检测程序 ToxBuster

介绍了 ToxBuster ，一种简单且可扩展的模型，用于检测在线空间中的毒性。该模型使用彩虹六围攻和荣耀战荣耀的游戏聊天记录数据进行训练，并且对不同类型的毒性进行了仔细的注释。相较于现有技术，ToxBuster 在精确性和召回率上均表现出较大提升，达到了 82.95% 和 83.56%。该模型使用了过去的聊天历史和元数据，并研究了实时和游戏后的监管以及模型从一个游戏传输到另一个游戏的可行性。

May, 2023

开放式聊天机器人的安全配方

探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题，提出了新的人与模型交互框架及新方法，而不使用外部分类器，在保证模型可用性的同时更安全，实现了自动和人为评估。

Oct, 2020

针对游戏内聊天的实时上下文有害内容检测

ToxBuster 是一个简单且可伸缩的模型，通过包含聊天历史和元数据，可在实时环境中可靠地检测毒性内容，适用于社交媒体和游戏平台，在流行的多人游戏中性能稳定，并在聊天举报玩家的精确度达到 90% 的情况下成功标记大约 82.1% 的玩家以及主动监管未报道的约 6% 的有毒玩家。

Oct, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023