混合文本注解的正式风格转换
本论文研究如何增广平行数据,提出了新颖且简单的数据增广方法来获得有用的句子对,并表明采用增广平行数据进行预训练可以帮助改善正式语体转换,并在 GYAFC 基准数据集中取得了最先进的结果。
May, 2020
本文提出了一种半监督框架,通过一致性训练来更好地利用源端未标记句子,其中采用了数据扰动方法来增广伪平行数据,并提出了有效的数据过滤策略,实现了在 GYAFC 基准测试中获得最先进的结果。
Mar, 2022
本研究创造出最大的专门风格转换语料库,针对形式化语言的风格,显示了使用机器翻译技术作为未来工作的强有力基线,并讨论了使用自动指标的挑战。
Mar, 2018
文本风格转换方法在自然语言处理中越来越受欢迎,允许将文本从有毒到神经、从正式到非正式、从古老到现代英语等形式进行改写。在一些应用中,解决这一任务不仅仅是生成一些神经 / 非正式 / 现代化的文本,更重要的是保持原始内容不变。通过比较各种风格转换模型在正式转换领域的实例,我们对各种风格转换方法的内容保留能力进行了研究。我们创建了一个形式与非正式任务导向的对话的平行数据集,与 GYAFC 等现有数据集的关键区别是包含了必须在改写过程中保留的预定义语义槽,例如命名实体。这个额外的注释允许我们对几种最先进的风格转换技术进行精确的对比研究。我们研究的另一个结果是对无监督方法 LEWIS 进行改进,在所提出的任务中取得了明显的改进,优于原始方法和所有评估的基准方法。
Aug, 2023
本文提出了一种使用语言模型鉴别器的半监督式正式语言风格转换模型,通过最大化生成句子为正式语言的可能性进行训练,并提出了最大化样式源和目标之间互信息作为训练目标。实验结果表明,在自动化指标和人类判断方面,我们的模型显著优于之前的最新基线,并将其推广到无监督文本风格转换任务中,在两个情感风格转换基准数据集上均获得了显着进展。
Oct, 2020
本文探讨多任务学习在自然语言生成中的应用,通过多任务学习实现单语言风格转换和基于风格的机器翻译,并展示了在不依赖特定样本的风格注释训练条件下,我们的模型在风格转换和基于风格翻译方面均取得了最先进的性能。
Jun, 2018
本文针对文本形式转换的评估问题进行研究,重点关注了风格强度、内容保留和流畅度等三个方面的评估,对常见与新型度量标准进行了人工评估和相关分析,提出了在通用性使用情况下建议及其在相关任务中的外推性。
Apr, 2022
研究探索了波斯语的形式风格转换,旨在将非正式的文本转化为正式的文本,保持原始含义,并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT,基于 Fa-BERT 架构,结合一致性学习和基于梯度的动态权重,增强模型对语法变化的理解,平衡损失部分,并通过新的度量标准对该模型与传统方法进行了评估,结果表明其在多个指标上的卓越性能,包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性,显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展,能够有效处理语言风格转换,从而简化内容的管理,增强数据挖掘结果,促进跨文化交流。
Jun, 2024
通过创建和发布多种形式重组非正式文本的基准测试 XFORMAL,我们迈出了通往多语言风格转移的第一步。XFORMAL 的结果表明,最先进的风格转移方法与简单的基线方法表现相当,这表明在进行多语言风格转移时更具挑战性。
Apr, 2021
该论文提出了一种简单的基于预训练语言模型的方法,将非监督风格转移重新规定为句子释义生成问题,本文在人工和自动评估方面显著优于目前最先进的风格转移系统,并发现现有的自动指标可以进行简单地误导,最后通过收集具有 11 种不同风格的大型数据集进一步对该系统进行深入分析。
Oct, 2020