利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

Apr, 2022

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation and Understanding

PDF

Changtong Zan, Liang Ding, Li Shen, Yu Cao, Weifeng Liu...

TL;DR本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Abstract

For multilingual sequence-to-sequence pretrained language models (multilingual Seq2Seq PLMs), e.g. mBART, the self-supervised pretraining task is trained on a wide range of monolingual languages, e.g. 25 language

multilingual sequence-to-sequence pretrained language models self-supervised pretraining cross-lingual learning objective code-switching restore task euclidean distance

发现论文，激发创造

基于预训练的跨语言自然语言生成

本文使用序列到序列模型进行自然语言生成任务，使用预训练的方法并将编码器和解码器用于单语和跨语言，实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。

Sep, 2019

语言模型与跨语言序列标注之间的桥梁

本篇论文提出 Cross-lingual Language Informative Span Masking (CLISM) 和 ContrAstive-Consistency Regularization (CACR) 两种方法来缩小预先训练和微调阶段之间的差距，并以多语言对齐为目标对跨语言机器阅读理解（xMRC）进行改进。实验结果表明，这些方法在多个 xSL 基准测试中取得了显著优越的结果，并且在只有几百个训练示例可用的少量数据设置中超过了以前的最新方法。

Apr, 2022

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

预训练后的对齐：通过跨语言对齐提升多语生成模型

通过利用翻译句子对齐内部句子表示，并通过回答不同语言的提示问题对齐模型输出，我们提出了一个简单而有效的对齐框架，显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明，它导致了更好的多语言模型的内部多语言表示分布。

Nov, 2023

ZmBART：一种用于语言生成的无监督跨语言转移框架

本文针对自然语言生成中跨语言转移的研究相对匮乏，介绍了一种无监督的跨语言语言生成框架 ZmBART，使用少量高资源语言数据进行监督学习，并通过预训练的方式，利用三种语言的单语数据来进行无监督学习，最终在多种低资源语言上获得了较好的性能。

Jun, 2021

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022