英语和印地语中的文本去毒化作为风格转换

Feb, 2024

英语和印地语中的文本去毒化作为风格转换

Text Detoxification as Style Transfer in English and Hindi

Sourabrata Mukherjee, Akanksha Bansal, Atul Kr. Ojha, John P. McCrae, Ondřej Dušek

TL;DR本文研究了文本排毒的任务，即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法，我们有效地平衡了文本排毒，同时保留了原始内容和流畅性，并使用提供的数据集进行实验和评估。

Abstract

This paper focuses on text detoxification, i.e., automatically converting toxic text into non-toxic text. This task contributes to safer and more respectful online communication and can be considered a text style transf

text detoxification text style transfer dataset toxicity classification hindi parallel dataset

发现论文，激发创造

跨语言文本风格转换方法研究：以文本排毒为例

文本去毒化是将文本风格从有毒转化为中性的任务，在单语环境下已有取得良好结果的方法，但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务，即同时进行文本翻译和去毒化，为该任务提供了几个强基线方法。此外，引入了与人类判断更高相关性的新自动去毒化评估指标，通过人工标记和评估最有希望的方法，确定了文本去毒化知识转移的最佳策略。

Nov, 2023

使用大型预训练神经模型进行文本去毒化

本文提出了两种新颖的无监督方法来消除文本中的有害信息，第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法，第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词，并进行了大规模比较研究，证明这两种方法有效且是新的最佳解决方案。

Sep, 2021

利用 Levenshtein 编辑技术进行俄文文本净化

本文使用文本编辑的概念，利用俄语平行语料库，构建两步标记为基础的脱毒模型，实现了最佳的样式转移准确性，并且超过了更大的序列到序列模型。

Apr, 2022

使用大型多语言模型探索跨语言文本风格转移

研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为，探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法；实验证明，多语言模型能够执行多语言风格转换，但是模型无法执行跨语言解毒，所以对特定语言进行直接微调是不可避免的。

Jun, 2022

MultiParaDetox：利用平行数据扩展文本去毒处理到新的语言

文本排毒是一种文本样式转换（TST）任务，其目的是将文本从有毒的表面形式（例如不礼貌的词语）转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言，提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库，并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。

Apr, 2024

大型语言模型是否真正擅长文本风格转换？

我们分析了大型语言模型（LLMs）在文本样式转换（TST）上的性能，特别关注情感转移和文本解毒，在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调，评估了预训练 LLMs 的能力，使用自动度量、GPT-4 和人工评估。我们的评估结果显示，虽然一些受提醒的 LLMs 在英语上表现良好，但它们在其他语言（印地语、孟加拉语）上的表现平均。然而，微调与零样本和少样本提示相比显著改善了结果，使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。

Jun, 2024

多语种文本风格转换：印度语言的数据集与模型

本文旨在通过保留核心内容的同时改变文本的语言风格，重点研究了情感转换这一重要的文本风格转换子任务，涵盖印度语言的广泛范围，包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语；本文介绍了每种语言的正负样式平行句的专门数据集，评估并比较了各种基准模型在平行数据、非平行数据、跨语言学习和共享学习方法中的性能，其中包括 Llama2 和 GPT-3.5 成语语言模型（LLMs）；我们的实验突出了平行数据在文本风格转换中的重要性，并展示了掩码风格填充（MSF）方法在非平行技术中的有效性；此外，跨语言和联合多语种学习方法表现出了潜力，为选择适合特定语言和任务要求的最优模型提供了见解；据我们所知，这项工作是首次全面探索以情感转换为代表的文本风格转换任务涉及到多种语言的研究。

May, 2024

GPT-DETOX: 文本解毒的上下文学习重述器

提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架，利用零样本学习和少样本学习技术进行文本排毒，同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法，并采用集成学习策略，实现了在两个排毒数据集上至少 10% 的性能改进。

Apr, 2024

文本风格转换：简介概览

自然语言生成的关键任务是文本样式转换（Text Style Transfer），可以在保留与样式无关的内容的同时，操作文本样式属性。此篇论文提供了对文本样式转换的介绍性概述，涵盖了挑战、现有方法、数据集、评估指标、子任务和应用等。该基础概述有助于加深对文本样式转换背景和基础知识的理解。

Jul, 2024

使用遮罩语言建模进行偏见缓解的文本风格转换

本研究提出了一种用于减少偏见的文本风格转换模型，它结合了潜在内容编码和明确的关键词替换，可以更好地保存内容并保持良好的风格转移准确性。

Jan, 2022