使用大型预训练神经模型进行文本去毒化

EMNLPSep, 2021

使用大型预训练神经模型进行文本去毒化

Text Detoxification using Large Pre-trained Neural Models

David Dale, Anton Voronov, Daryna Dementieva, Varvara Logacheva, Olga Kozlova...

TL;DR本文提出了两种新颖的无监督方法来消除文本中的有害信息，第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法，第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词，并进行了大规模比较研究，证明这两种方法有效且是新的最佳解决方案。

Abstract

We present two novel unsupervised methods for eliminating toxicity in text. Our first method combines two recent ideas: (1) guidance of the generation process with small style-conditional language models and (2) use of

toxicity removal unsupervised methods bert style transfer paraphrasing models

发现论文，激发创造

英语和印地语中的文本去毒化作为风格转换

本文研究了文本排毒的任务，即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法，我们有效地平衡了文本排毒，同时保留了原始内容和流畅性，并使用提供的数据集进行实验和评估。

Feb, 2024

使用大型多语言模型探索跨语言文本风格转移

研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为，探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法；实验证明，多语言模型能够执行多语言风格转换，但是模型无法执行跨语言解毒，所以对特定语言进行直接微调是不可避免的。

Jun, 2022

跨语言文本风格转换方法研究：以文本排毒为例

文本去毒化是将文本风格从有毒转化为中性的任务，在单语环境下已有取得良好结果的方法，但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务，即同时进行文本翻译和去毒化，为该任务提供了几个强基线方法。此外，引入了与人类判断更高相关性的新自动去毒化评估指标，通过人工标记和评估最有希望的方法，确定了文本去毒化知识转移的最佳策略。

Nov, 2023

利用反事实生成减轻文本毒性

通过使用反事实生成方法以及可解释性人工智能（XAI）领域的方法来目标化和缓解文本毒性，我们提出了一种文本解毒方法，该方法能够在去除有害含义的同时保留初始非毒性含义，并且对三个数据集进行比较实证研究和评估结果表明，最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性，并更好地保留了初始文本的含义。此外，我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题，这项工作是首次将反事实生成与文本解毒结合起来，为 XAI 方法的更实际应用铺平了道路。

May, 2024

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

基于 Transformer 的语言模型降低毒性的奖励建模

本文提出了一种新的基于强化学习的语言模型去毒性方法 - Reinforce-Detoxify，通过引入新的奖励机制，它能够有效地检测出有毒的内容，并减轻与社会身份相关的无意识偏见。实验表明，Reinforce-Detoxify 方法在语言模型去毒性方面优于现有的去毒性方法，并且生成内容不太容易存在社会身份上的偏见。

Feb, 2022

使用有毒语料库对语言模型进行脱毒

本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性，提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性，结果表明有害文本可以显着减少语言生成过程的毒性，为现有去偏见方法提供了补充。

Apr, 2022

使用遮罩语言建模进行偏见缓解的文本风格转换

本研究提出了一种用于减少偏见的文本风格转换模型，它结合了潜在内容编码和明确的关键词替换，可以更好地保存内容并保持良好的风格转移准确性。

Jan, 2022

利用 Levenshtein 编辑技术进行俄文文本净化

本文使用文本编辑的概念，利用俄语平行语料库，构建两步标记为基础的脱毒模型，实现了最佳的样式转移准确性，并且超过了更大的序列到序列模型。

Apr, 2022

MultiParaDetox：利用平行数据扩展文本去毒处理到新的语言

文本排毒是一种文本样式转换（TST）任务，其目的是将文本从有毒的表面形式（例如不礼貌的词语）转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言，提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库，并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。

Apr, 2024