有害文本的特征：走向对语言模型严格基准测试

Jun, 2022

有害文本的特征：走向对语言模型严格基准测试

Characteristics of Harmful Text: Towards Rigorous Benchmarking of Language Models

Maribeth Rauh, John Mellor, Jonathan Uesato, Po-Sen Huang, Johannes Welbl...

TL;DR大型语言模型生成的文本在越来越多的应用程序中表现得像人类一样，但是最近的文献和实际观察表明，这些模型可以生成有毒，偏见，不真实或有害的语言。本文提出了六种方式来表征有害文本，并应用于现有基准和案例研究，为有害文本的评估提供了有效的方法。

Abstract

Large language models produce human-like text that drive a growing number of applications. However, recent literature and, increasingly, real world observations, have demonstrated that these models can generate language that is toxic, biased, untruthful or otherwise harmful. Though wor

language models toxicity biases harmful text evaluation

发现论文，激发创造

自然语言处理研究中有害文本的处理和展现

本文介绍了一个将 NLP 中的文本有害信息分为三个轴的分析框架，提供了处理和呈现有害文本的建议，并引入了使用文档标准来处理和呈现有害文本的方法。

Apr, 2022

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

语言生成模型可能会造成伤害：那我们能做些什么？一份可执行的调查

本文对语言生成模型潜在威胁与社会危害进行了调查研究，提供了探查与缓解风险和伤害的实用方法，旨在为大型语言模型研究人员和从业者提供实用指南。

Oct, 2022

文本特征化工具包

本研究讨论了 NLP 模型性能评估中存在的偏向、伪相关以及假象等因素，并提出了使用 Text Characterization Toolkit 这一工具进行更深层次的结果分析和性质研究的方法。使用这一工具，可以预测难以处理的样本，识别数据集中潜在的（有害的）偏向和启发式方法。

Oct, 2022

FrenchToxicityPrompts：法文文本中评估和缓解有害性的大型基准

我们创建并发布了 FrenchToxicityPrompts 数据集，评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性，并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。

Jun, 2024

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023

使用条件似然过滤减少语言模型的危害

提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Aug, 2021

FFT：面向事实性、公平性、毒性的 LLM 无害评估和分析

通过提出一个新的基准测试 FFT，以测试大型语言模型的无害性，本文对代表性的九个大型语言模型进行了实证评估，研究发现这些语言模型的无害性仍然不理想，为未来研究提供了有启发性的结果。

Nov, 2023

利用反事实生成减轻文本毒性

通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

May, 2024