英语和印地语中的文本去毒化作为风格转换
文本去毒化是将文本风格从有毒转化为中性的任务,在单语环境下已有取得良好结果的方法,但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务,即同时进行文本翻译和去毒化,为该任务提供了几个强基线方法。此外,引入了与人类判断更高相关性的新自动去毒化评估指标,通过人工标记和评估最有希望的方法,确定了文本去毒化知识转移的最佳策略。
Nov, 2023
本文提出了两种新颖的无监督方法来消除文本中的有害信息,第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法,第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词,并进行了大规模比较研究,证明这两种方法有效且是新的最佳解决方案。
Sep, 2021
本文使用文本编辑的概念,利用俄语平行语料库,构建两步标记为基础的脱毒模型,实现了最佳的样式转移准确性,并且超过了更大的序列到序列模型。
Apr, 2022
研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为,探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法;实验证明,多语言模型能够执行多语言风格转换,但是模型无法执行跨语言解毒,所以对特定语言进行直接微调是不可避免的。
Jun, 2022
文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言,提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库,并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。
Apr, 2024
我们分析了大型语言模型(LLMs)在文本样式转换(TST)上的性能,特别关注情感转移和文本解毒,在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调,评估了预训练 LLMs 的能力,使用自动度量、GPT-4 和人工评估。我们的评估结果显示,虽然一些受提醒的 LLMs 在英语上表现良好,但它们在其他语言(印地语、孟加拉语)上的表现平均。然而,微调与零样本和少样本提示相比显著改善了结果,使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。
Jun, 2024
本文旨在通过保留核心内容的同时改变文本的语言风格,重点研究了情感转换这一重要的文本风格转换子任务,涵盖印度语言的广泛范围,包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语;本文介绍了每种语言的正负样式平行句的专门数据集,评估并比较了各种基准模型在平行数据、非平行数据、跨语言学习和共享学习方法中的性能,其中包括 Llama2 和 GPT-3.5 成语语言模型(LLMs);我们的实验突出了平行数据在文本风格转换中的重要性,并展示了掩码风格填充(MSF)方法在非平行技术中的有效性;此外,跨语言和联合多语种学习方法表现出了潜力,为选择适合特定语言和任务要求的最优模型提供了见解;据我们所知,这项工作是首次全面探索以情感转换为代表的文本风格转换任务涉及到多种语言的研究。
May, 2024
提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架,利用零样本学习和少样本学习技术进行文本排毒,同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法,并采用集成学习策略,实现了在两个排毒数据集上至少 10% 的性能改进。
Apr, 2024
文本风格转换方法在自然语言处理中越来越受欢迎,允许将文本从有毒到神经、从正式到非正式、从古老到现代英语等形式进行改写。在一些应用中,解决这一任务不仅仅是生成一些神经 / 非正式 / 现代化的文本,更重要的是保持原始内容不变。通过比较各种风格转换模型在正式转换领域的实例,我们对各种风格转换方法的内容保留能力进行了研究。我们创建了一个形式与非正式任务导向的对话的平行数据集,与 GYAFC 等现有数据集的关键区别是包含了必须在改写过程中保留的预定义语义槽,例如命名实体。这个额外的注释允许我们对几种最先进的风格转换技术进行精确的对比研究。我们研究的另一个结果是对无监督方法 LEWIS 进行改进,在所提出的任务中取得了明显的改进,优于原始方法和所有评估的基准方法。
Aug, 2023