本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。
May, 2023
本文使用序列到序列模型进行自然语言生成任务,使用预训练的方法并将编码器和解码器用于单语和跨语言,实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。
Sep, 2019
本文提出了一种新的跨语言预训练方法,通过融合显式的跨语言训练信号,从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.
Aug, 2019
通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练,该模型命名为 XLM-R,显著优于 mBERT,在跨语言基准测试中实现了 + 14.6%和 + 13%的平均准确性和 F1 分数,并改善了 10 个低资源语言的准确性,显示了前景。
Nov, 2019
本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法,应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。
Mar, 2021
本文提出了 XLM-P 模型,结合上下文获取灵活的编码,实现语言无关以及语言特定知识的轻量级建模,且可以与其他多语言预训练方法轻松集成,提供用于文本分类、序列标记、问答和句子检索的性能改进,对于低资源语言和跨语言传输具有实际优势。
Jun, 2023
本文提出了一种名为 XLM-K 的跨语言语言模型,它将多语言知识融入预训练中并通过两种知识任务对其进行了拓展,结果显示 XLM-K 在多项任务上表现出更高的优越性。
Sep, 2021
本文论述了跨语言零 - shot 迁移的问题,并通过对 XLM-RoBERTa 进行实验,研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验(STS)中表现最强,情感分析次之,机器阅读理解中表现最弱。
Jan, 2021
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
本文介绍了使用预训练的跨语言 Transformer 编码器初始化模型,并使用多语言平行数据微调的简单方法 XLM-T,它在 10 种语言对的 WMT 数据集和 94 种语言对的 OPUS-100 语料库中实现了显着的性能提升。此外,对 XLM-T 进行的无监督句法分析,词对齐和多语言分类的广泛分析说明了其对机器翻译的有效性。
Dec, 2020