形式转换的并行数据增强
本文通过提出一种全能模型,同时采用平行数据和形式分类数据,以缓解数据稀疏性问题,并在形式转换基准数据集上取得最新的最优表现,发现该模型还可轻松适用于其他无监督文本样式转换任务,如无监督情感转换,并在三个广泛认可的基准测试中取得竞争优势。
Mar, 2019
本文提出了一种半监督框架,通过一致性训练来更好地利用源端未标记句子,其中采用了数据扰动方法来增广伪平行数据,并提出了有效的数据过滤策略,实现了在 GYAFC 基准测试中获得最先进的结果。
Mar, 2022
本研究创造出最大的专门风格转换语料库,针对形式化语言的风格,显示了使用机器翻译技术作为未来工作的强有力基线,并讨论了使用自动指标的挑战。
Mar, 2018
本研究利用强化学习生成评估器结构,使用基于注意力的编码 - 解码器转换源风格的句子至目标风格,并进行了语义和句法限制的对抗训练风格鉴别器,成功实现了无平行训练语料库的文本风格转移,并在两种不同的风格转移任务(情感转移和形式转移)中取得了优于现有方法的结果,并进一步进行了手动评估,证明了所提出方法在生成文本质量方面的有效性。
Mar, 2019
LaMer 是一种基于大型语言模型的新型文本风格转换框架,通过场景图挖掘非平行数据中的近似平行表达,以利用数据内在的平行性。在情感、正式性和政治立场转换任务中,我们的模型在转换准确性、内容保留和流畅性方面实现了质的飞跃。进一步的实证和人类评估表明,我们的模型不仅使训练更有效,而且比以前的模型生成更易读和更多样化的表达式。
Apr, 2022
此篇研究发现在有限的平行数据下,fine-tuning 预训练的 GPT-2 和 BART 语言模型可提高对形式的样式转换模型中内容保留的成功率,并加以奖励促进模型对形式和内容两个核心方面的提高,从而实现了新的最高水平。
May, 2021
该论文提出了一种新的数据扩增框架来实现语义相关、风格一致的图像描述生成,在以往仅使用无监督学习方法来进行风格生成的基础上,利用情感词组从小规模缩影句子中提取风格语言,将其与大规模事实描述相结合,采用多模式场景检索和情感感知式生成器生成一系列分别各异、口语化的描述。实验证明,该方法能够有效缓解数据稀缺的问题,同时在句子相关性和时尚性等方面都显着超越了现有技术方法的最新水平。
Aug, 2021
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
我们在英语中以命名实体识别任务为案例研究,探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练,并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明,我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案,并且我们预计它可应用于其他 NLP 任务。
Oct, 2022
本文提出了一种使用语言模型鉴别器的半监督式正式语言风格转换模型,通过最大化生成句子为正式语言的可能性进行训练,并提出了最大化样式源和目标之间互信息作为训练目标。实验结果表明,在自动化指标和人类判断方面,我们的模型显著优于之前的最新基线,并将其推广到无监督文本风格转换任务中,在两个情感风格转换基准数据集上均获得了显着进展。
Oct, 2020