多语种文本风格转换的语言和任务自适应多语种预训练
通过在 10 种语言上进行完备实验,考虑了五个因素:(1)微调数据量,(2)微调数据中的噪声,(3)模型预训练数据量,(4)领域不匹配的影响以及(5)语言类型学,我们试图确定预训练多语言序列到序列模型(如 mBART)对翻译低资源语言有何贡献,并提出了许多启发式方法。实验结果显示,mBART 对领域差异具有鲁棒性,但对未知和语言类型学差异较大的语言的翻译仍低于 3.0 BLEU。因此,我们鼓励将重点从新模型转向新数据。
Mar, 2022
本文的研究表明,多语言去噪预训练在各种机器翻译任务中都有显著的性能提升,通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练,我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一,它能够直接进行监督(包括句子级和文档级)和无监督机器翻译的微调,而无需特定于任务的修改,并且在除最高资源设置外的所有设置中都能实现性能提升,包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。
Jan, 2020
本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型(multilingual Seq2Seq PLMs) 的性能的方法,实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART,可以缩小跨语言句子表示的欧几里得距离,并且在计算成本方面没有太多的增加。
Apr, 2022
本文探讨多任务学习在自然语言生成中的应用,通过多任务学习实现单语言风格转换和基于风格的机器翻译,并展示了在不依赖特定样本的风格注释训练条件下,我们的模型在风格转换和基于风格翻译方面均取得了最先进的性能。
Jun, 2018
此篇研究发现在有限的平行数据下,fine-tuning 预训练的 GPT-2 和 BART 语言模型可提高对形式的样式转换模型中内容保留的成功率,并加以奖励促进模型对形式和内容两个核心方面的提高,从而实现了新的最高水平。
May, 2021
本文提出了一种连续预训练 (CPT) 框架来应对低资源语言中看不见的语言,通过使用目标语言的单语语料库构建混合语言文本并继续对 mBART 进行预训练以优化低资源翻译任务,结果表明我们的方法能够持续提高翻译性能。
May, 2021
本文针对自然语言生成中跨语言转移的研究相对匮乏,介绍了一种无监督的跨语言语言生成框架 ZmBART,使用少量高资源语言数据进行监督学习,并通过预训练的方式,利用三种语言的单语数据来进行无监督学习,最终在多种低资源语言上获得了较好的性能。
Jun, 2021
本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型,并且证明在不失性能的前提下,预训练模型可以扩展到更多语言。此外,作者基于 ML50 数据集表明,多语言微调相较于其他训练方式有显著提升。
Aug, 2020
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021