使用生成式提示推断进行毒性检测

May, 2022

使用生成式提示推断进行毒性检测

Toxicity Detection with Generative Prompt-based Inference

Yau-Shian Wang, Yingshan Chang

TL;DR本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

Abstract

Due to the subtleness, implicity, and different possible interpretations perceived by different people, detecting undesirable content from text is a nuanced difficulty. It is a long-known risk that language models (LMs), once trained on corpus containing undesirable content, have the p

toxicity detection language models prompt-based methods self-diagnosis ethical implications

发现论文，激发创造

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

毒性检测自由

使用 LLMs 自身提取的信息，通过查找替代拒绝响应和首个响应标记的 logits 分布中的有毒提示之间的显著差距，我们提出了一种新的毒性侦测模型 MULI，它不需要训练或额外计算成本，并基于首个响应标记的 logits 构建了一个更强大的检测器，其性能超过了现有技术下的多个指标。

May, 2024

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

FrenchToxicityPrompts：法文文本中评估和缓解有害性的大型基准

我们创建并发布了 FrenchToxicityPrompts 数据集，评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性，并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。

Jun, 2024

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

让模型回应：透过提示依赖的视角解释语言模型去毒化

通过使用特征归因方法，将几种受欢迎的脱敏方法应用于几种语言模型，并量化它们对结果模型的提示依赖性的影响，评估拟议反叙述微调的有效性并将其与驱动脱敏的强化学习进行比较，观察到两种方法之间的提示依赖性差异，尽管它们的脱敏表现类似。

Sep, 2023

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022