利用 Levenshtein 编辑技术进行俄文文本净化

Apr, 2022

利用 Levenshtein 编辑技术进行俄文文本净化

Russian Texts Detoxification with Levenshtein Editing

Ilya Gusev

TL;DR本文使用文本编辑的概念，利用俄语平行语料库，构建两步标记为基础的脱毒模型，实现了最佳的样式转移准确性，并且超过了更大的序列到序列模型。

Abstract

text detoxification is a style transfer task of creating neutral versions of toxic texts. In this paper, we use the concept of

text detoxification style transfer toxic texts text editing parallel corpus

发现论文，激发创造

跨语言文本风格转换方法研究：以文本排毒为例

文本去毒化是将文本风格从有毒转化为中性的任务，在单语环境下已有取得良好结果的方法，但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务，即同时进行文本翻译和去毒化，为该任务提供了几个强基线方法。此外，引入了与人类判断更高相关性的新自动去毒化评估指标，通过人工标记和评估最有希望的方法，确定了文本去毒化知识转移的最佳策略。

Nov, 2023

英语和印地语中的文本去毒化作为风格转换

本文研究了文本排毒的任务，即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法，我们有效地平衡了文本排毒，同时保留了原始内容和流畅性，并使用提供的数据集进行实验和评估。

Feb, 2024

使用大型多语言模型探索跨语言文本风格转移

研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为，探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法；实验证明，多语言模型能够执行多语言风格转换，但是模型无法执行跨语言解毒，所以对特定语言进行直接微调是不可避免的。

Jun, 2022

使用大型预训练神经模型进行文本去毒化

本文提出了两种新颖的无监督方法来消除文本中的有害信息，第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法，第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词，并进行了大规模比较研究，证明这两种方法有效且是新的最佳解决方案。

Sep, 2021

MultiParaDetox：利用平行数据扩展文本去毒处理到新的语言

文本排毒是一种文本样式转换（TST）任务，其目的是将文本从有毒的表面形式（例如不礼貌的词语）转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言，提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库，并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。

Apr, 2024

GPT-DETOX: 文本解毒的上下文学习重述器

提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架，利用零样本学习和少样本学习技术进行文本排毒，同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法，并采用集成学习策略，实现了在两个排毒数据集上至少 10% 的性能改进。

Apr, 2024

逐步解毒语言模型

针对语言模型的解毒具有挑战性，本文提出了分解解毒过程、基于无毒提示的连续生成以及使用 Detox-Chain 进行有序连接的方法来实现显著的解毒和生成改进。

Aug, 2023

DiffuDetox: 文本净化的混合扩散模型

本研究提出了一种混合条件和非条件扩散模型 DiffuDetox，用于文本脱敏，并通过大量实验和分析证明其有效性。

Jun, 2023

具有对比解码的参数高效排毒

Detoxification Generator (DETOXIGEN) is an algorithm that controls the attributes of generated text, particularly avoiding toxicity, by using an ensemble of a pre-trained language model and a detoxifier trained on toxic data.

Jan, 2024

LEWIS: 无监督文本风格转换的 Levenshtein 编辑

本文提出了一种从粗到细的编辑器来进行风格转移，该编辑器使用 Levenshtein 编辑操作同时编辑源文本中的多个范围；为了训练，提出了一个无监督的数据合成过程，并使用 fine-tuned 预训练语言模型填充模板。该方法在情感（Yelp，Amazon）和礼貌（Polite）转换中优于现有的生成和编辑风格转移方法。与单范围编辑相比，多范围编辑实现了更高的性能和更多样化的输出。与以往的无监督数据综合方法相比，该方法产生了更高质量的并行样式对，并改善了模型性能。

May, 2021