关于单语表示的跨语言转移性

Oct, 2019

On the Cross-lingual Transferability of Monolingual Representations

Mikel Artetxe, Sebastian Ruder, Dani Yogatama

TL;DR新颖的跨语言转移学习方法-从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Abstract

State-of-the-art unsupervised multilingual models (e.g., multilingual BERT) have been shown to generalize in a zero-shot cross-lingual setting. This generalization ability has been attributed to the use of a shared subword vocabulary and joint training across multiple languages giving

发现论文，激发创造

Unicoder：通过多语种交叉训练预训练的通用语言编码器

Unicoder是一种机器学习算法，可对自然语言进行编码，进而实现输出不同语言的任务。该方法提出了三种新的跨语言预训练任务，包括跨语言词汇恢复、跨语言近义词分类和跨语言掩码语言模型。作者还发现在多种语言上进行微调可以进一步提高性能。作者在两个任务上进行了实验，包括跨语言自然语言推断和跨语言问答，并且在新的跨语言问答数据集上实现了5.5％的精确度提高。

Sep, 2019

跨语言对齐与联合训练：比较研究和简单统一框架

本文研究了两种多语言文本学习方法，即alignment和joint training，并提出了将这两种方法结合的框架。实验证明，该框架改善了现有方法的局限性，在MUSE双语词汇诱导（BLI）基准测试中性能优于现有方法，并在CoNLL跨语言NER基准测试上产生了最新的结果。

Oct, 2019

预训练语言模型中新兴的跨语言结构

通过研究多语言掩码语言建模问题，我们阐述了若干因素，即为何这些模型在跨语言转移方面如此有效，并证明了即使单语料库之间没有共享词汇，也可以进行转移，只需在多语言编码器顶层存在一些共享参数。同时，我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐，这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模，这些对称性似乎是在联合训练过程中自动发现和对齐的。

Nov, 2019

大规模跨语言无监督表示学习

通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练，该模型命名为XLM-R，显著优于mBERT，在跨语言基准测试中实现了+14.6％和+13％的平均准确性和F1分数，并改善了10个低资源语言的准确性，显示了前景。

Nov, 2019

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为XTREME的跨语言多任务基准测试，它可以在40种语言和9个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

FILTER：跨语言语言理解的增强融合方法

本文提出了FILTER方法，该方法利用跨语言数据增强XLM微调，通过跨语言融合中间层来提取多语言知识，使用自生成的软伪标签和KL散度自我训练损失来解决任务挑战，显著提高了XTREME和XGLUE两个多语言多任务基准的性能。

Sep, 2020

先对齐，再预测：理解多语言BERT的跨语言能力

使用一种新的层摘除技术和模型内部表示的分析方法，我们发现多语言 BERT 可看作两个子网络的堆叠：一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键，在微调过程中大部分不变，而任务预测对传递影响很小，可以在微调期间重新初始化。

Jan, 2021

在语言相似度高的情况下适应单语模型：数据匮乏的问题

本篇论文重点研究了如何使用尽可能少的数据实现零-shot迁移学习，并探讨了语言相似度在该过程中的影响。研究人员利用两种低语言资源语言重新训练了四个基于BERT的模型的词汇层，同时对模型的源语言进行了独立的POS标记任务的微调。研究结果发现，通过将新的词汇层和微调后的Transformer层相结合，即使在仅有10MB的数据的情况下，也能显著提高两种目标语言任务的性能。值得注意的是，在目标语言被包含在多语言模型中时，单语BERT-based模型在重新训练词汇层后的下游任务表现要高于多语BERT。

May, 2021

重审零样本跨语言转移中英语的首要地位

本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究，发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习，即使训练集是自动从英语翻译而来。同时，该结论对于多语言零样本系统有着重要影响，并且应该指导未来的基准设计。

Jun, 2021

提升视觉问答中的跨语言泛化能力

本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况，并提出了三种策略以提高它们在零-shot跨语言视觉问答任务中的性能。实验证明，该Fine-tuning策略取得了一致的效果。

Sep, 2022