利用反事实生成减轻文本毒性

May, 2024

Mitigating Text Toxicity with Counterfactual Generation

Milan Bhan, Jean-Noel Vittaut, Nina Achache, Victor Legrand, Nicolas Chesneau...

TL;DR通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

Abstract

toxicity mitigation consists in rephrasing text in order to remove offensive or harmful meaning. neural natural language processing (NLP) models have been widely used to target and mitigate textual toxicity. Howe

toxicity mitigation neural natural language processing counterfactual generation text detoxification xai methods

发现论文，激发创造

柔性文本生成用于反事实公平探究

本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Jun, 2022

使用大型预训练神经模型进行文本去毒化

本文提出了两种新颖的无监督方法来消除文本中的有害信息，第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法，第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词，并进行了大规模比较研究，证明这两种方法有效且是新的最佳解决方案。

Sep, 2021

通过鲁棒性实现文本分类的反事实公平性

本文研究文本分类中的反事实公平性问题，提出了一种度量特定公平性形式 —— 反事实令牌公平性 (CTF) 的度量准则，利用三种方法 —— 盲化、反事实增强和反事实逻辑配对 (CL) 解决训练中的反事实令牌公平性优化问题，这些方法不会影响分类器性能，并且在小组公平性方面具有变化，为解决文本分类中的公平性问题提供了新的途径。

Sep, 2018

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

对抗难以察觉的有毒触发器的强健对话代理

本文探讨了自然语言处理中毒性检测模型的发展和对抗性攻击的防御机制，提出了一种攻击和防御机制针对对话系统，能够自动触发系统生成毒性语言，同时保持谈话流畅度，并证明了该防御机制不仅有效避免了毒性语言生成，而且可以推广到对话系统之外的语言生成模型。

May, 2022

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

COFFEE：可解释推荐中针对个性化文本生成的反事实公平性

本文研究个性化文本生成中的公平性问题，提出了一个可适用于现有模型和实际场景的通用框架，以促进文本的公平性，消除因用户属性造成的偏见。

Oct, 2022

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

文本分类中的逆因果多令牌公平性

本文提出了一种名为 Counterfactual Multi-token Generation 的生成方案，通过扰动多个敏感 Token，可对各种形式的文本和文档实现更好的 Counterfactual 公平性，获得在多个基准数据集上显著的性能提升。

Feb, 2022