利用 Levenshtein 编辑技术进行俄文文本净化
文本去毒化是将文本风格从有毒转化为中性的任务,在单语环境下已有取得良好结果的方法,但在该任务的跨语言转化中仍然存在困难。本工作首次探索了一种新任务,即同时进行文本翻译和去毒化,为该任务提供了几个强基线方法。此外,引入了与人类判断更高相关性的新自动去毒化评估指标,通过人工标记和评估最有希望的方法,确定了文本去毒化知识转移的最佳策略。
Nov, 2023
本文研究了文本排毒的任务,即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法,我们有效地平衡了文本排毒,同时保留了原始内容和流畅性,并使用提供的数据集进行实验和评估。
Feb, 2024
研究多语言和跨语言毒化以及大型多语言模型在该环境中的行为,探讨使大型语言模型能够在给定语言中执行解毒操作而无需直接微调的方法;实验证明,多语言模型能够执行多语言风格转换,但是模型无法执行跨语言解毒,所以对特定语言进行直接微调是不可避免的。
Jun, 2022
本文提出了两种新颖的无监督方法来消除文本中的有害信息,第一种方法结合小型样式条件语言模型的生成过程指导和重新表述模型执行样式转移的想法,第二种方法利用 BERT 将有害词汇替换为它们的无冒犯同义词,并进行了大规模比较研究,证明这两种方法有效且是新的最佳解决方案。
Sep, 2021
文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将 ParaDetox 管道扩展到多种语言,提出 MultiParaDetox 以自动收集潜在任何语言的平行排毒语料库,并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。
Apr, 2024
提出了基于 GPT-3.5 Turbo 的 GPT-DETOX 框架,利用零样本学习和少样本学习技术进行文本排毒,同时使用基于词匹配和上下文匹配的 few-shot 提示生成方法,并采用集成学习策略,实现了在两个排毒数据集上至少 10% 的性能改进。
Apr, 2024
Detoxification Generator (DETOXIGEN) is an algorithm that controls the attributes of generated text, particularly avoiding toxicity, by using an ensemble of a pre-trained language model and a detoxifier trained on toxic data.
Jan, 2024
本文提出了一种从粗到细的编辑器来进行风格转移,该编辑器使用 Levenshtein 编辑操作同时编辑源文本中的多个范围;为了训练,提出了一个无监督的数据合成过程,并使用 fine-tuned 预训练语言模型填充模板。该方法在情感(Yelp,Amazon)和礼貌(Polite)转换中优于现有的生成和编辑风格转移方法。与单范围编辑相比,多范围编辑实现了更高的性能和更多样化的输出。与以往的无监督数据综合方法相比,该方法产生了更高质量的并行样式对,并改善了模型性能。
May, 2021