从一到多：扩大语言模型中毒素缓解的范围

Mar, 2024

从一到多：扩大语言模型中毒素缓解的范围

From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models

Luiza Pozzobon, Patrick Lewis, Sara Hooker, Beyza Ermis

TL;DR多语言毒性缓解中的复杂性研究及其对未来研究的重要影响

Abstract

To date, toxicity mitigation in language models has almost entirely been focused on single-language settings. As language models embrace multilingual capabilities, it's crucial our safety measures keep pace. Recognizing this research gap, our approach expands the scope of conventional

toxicity mitigation multilingual capabilities translated data cross-lingual transfer model size and data quantity

发现论文，激发创造

多模态和大规模多语言翻译中推断时附加毒性缓解

MinTox 是一个新颖的流水线，用于识别和减轻翻译中的增加毒性问题，并在推理时工作。MinTox 使用多模态的毒性检测分类器，并在规模化和直接的文本输出中应用于多语言。在 SEAMLESSM4T 系统中，MinTox 实现了领域、模态和语言方向的显著毒性缓解，从而滤除了 25% 至 95% 的增加毒性，同时保持翻译质量。

Nov, 2023

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

FrenchToxicityPrompts：法文文本中评估和缓解有害性的大型基准

我们创建并发布了 FrenchToxicityPrompts 数据集，评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性，并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。

Jun, 2024

Goodtriever: 检索增强模型的自适应毒性缓解

通过引入 Goodtriever 方法，在考虑到语言的演变性的基础上，提出了一个全面的毒性缓解视角，并在推理过程中实现 43% 的相对延迟降低，更具计算效率。该研究呼吁增加对适应性缓解技术的关注，这能更好地反映模型在实际环境中面对的数据漂移问题。

Oct, 2023

PolygloToxicityPrompts: 大型语言模型中神经毒性退化的多语种评估

通过引入 PolygloToxicityPrompts（PTP）评测标准，我们对 17 种语言的 425K 自然出现的提示进行了首次大规模多语种毒性评估，发现了语言资源减少和模型大小增加会增加毒性的现象，并且指导性微调方法选择对毒性没有显著影响，揭示了大型语言模型安全性的关键不足之处，并为未来的研究提供了重要的方向。

May, 2024

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

RTP-LX: 多语言情境下，LLM 能否评估毒性？

通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX，我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力，并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难，特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。

Apr, 2024

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

规模化的多语言机器翻译中的毒性问题

本文调查了机器翻译中的一种关键性错误：加入有毒信息。作者评估了一个大型数据集的翻译质量，并发现了加入有毒信息的范围和原因。作者认为，为了减少这些错误，需要修改训练数据，减少幻觉，检查不稳定的翻译。

Oct, 2022