将多语言理解模型推广为多语言生成器
新颖的跨语言转移学习方法-从单语言模型到新语言,通过学习一个新的词嵌入矩阵来实现,该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。
Oct, 2019
该研究的主要目的是探讨如何利用大规模的预训练语言模型如BERT来进行语言生成任务,并提出了一种基于条件掩码语言建模(C-MLM)的方法,使用BERT对学生模型进行监督,从而实现更好的文本生成性能,实验证明该方法在多语言生成任务上明显优于强大的Transformer基线,包括机器翻译和文本摘要,并在IWSLT德英和英越MT数据集上取得了新的最优效果。
Nov, 2019
本文的研究表明,多语言去噪预训练在各种机器翻译任务中都有显著的性能提升,通过使用BART目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练,我们提出了mBART。mBART是预训练完整序列到序列模型的首个方法之一,它能够直接进行监督(包括句子级和文档级)和无监督机器翻译的微调,而无需特定于任务的修改,并且在除最高资源设置外的所有设置中都能实现性能提升,包括低资源机器翻译和许多文档级和无监督模型的12 BLEU点和5 BLEU点以上。
Jan, 2020
本文提出了FILTER方法,该方法利用跨语言数据增强XLM微调,通过跨语言融合中间层来提取多语言知识,使用自生成的软伪标签和KL散度自我训练损失来解决任务挑战,显著提高了XTREME和XGLUE两个多语言多任务基准的性能。
Sep, 2020
本文提出了一种在Transformer编码器中添加交叉注意力模块的方法,用于处理多语言预训练中的语言依赖关系问题,并在多种跨语言任务中获得新的最先进结果。
Oct, 2020
本研究探讨了跨语言语言模型预训练的有效性,并且提出了两个参数分别为3.5B和10.7B的大型多语言掩码语言模型,这两个新模型分别称为XLM-R XL和XLM-R XXL,在XNLI中的平均准确率比XLM-R高1.8%和2.4%,同时处理了99种以上的语言,优于RoBERTa-Large模型,表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能,同时极大地改善了低资源语言。
May, 2021
本文针对自然语言生成中跨语言转移的研究相对匮乏,介绍了一种无监督的跨语言语言生成框架ZmBART,使用少量高资源语言数据进行监督学习,并通过预训练的方式,利用三种语言的单语数据来进行无监督学习,最终在多种低资源语言上获得了较好的性能。
Jun, 2021
本研究对生成式大型语言模型 (LLMs) 进行了全面的评测,并通过对比同类非自回归模型,探讨了这些模型在多语种 NLP 任务中的性能表现和限制,旨在为未来改进 LLMs 提供方向。
Mar, 2023
多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面,并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外,还探讨了不同模型类型的独特特征,包括仅编码器模型、仅解码器模型和编码器-解码器模型。同时,还讨论了多语言大型语言模型的一个重要局限性,即多语言之间的相互影响问题,并探究了克服这一问题的当前尝试。
Jun, 2024
通过将MT编码器直接集成到LLM主干中,我们通过样本高效的自我蒸馏获得了MT-LLM,从而将低资源语言与以英语为中心的LLM中嵌入的丰富知识相结合,实现了跨语言的多语言语言理解。
Jun, 2024