无监督跨语言学习需要更严谨的方法

ACLApr, 2020

无监督跨语言学习需要更严谨的方法

A Call for More Rigor in Unsupervised Cross-lingual Learning

Mikel Artetxe, Sebastian Ruder, Dani Yogatama, Gorka Labaka, Eneko Agirre

TL;DR本文回顾了无监督跨语言学习的动机、定义、方法和方法，并呼吁对每个方面进行更严格的立场。本研究的现有基础是基于世界上许多语言缺乏平行数据的事实。然而，我们认为实践中不存在不需要任何平行数据而有丰富单语数据的情况。本文还讨论了以前使用的不同训练信号，这些信号与纯无监督设置不同。然后，我们描述了无监督跨语言模型调整和评估的常见方法问题并提出最佳实践。最后，我们为这个领域中的不同类型的研究提供了统一的前景（即跨语言词嵌入，深度多语言预训练和无监督机器翻译），并主张对这些模型进行可比较的评估。

Abstract

We review motivations, definition, approaches, and methodology for unsupervised cross-lingual learning and call for a more rigorous position in each of them. An existing rationale for such research is based on the lack of →

unsupervised cross-lingual learning parallel data training signals methodological issues evaluation

发现论文，激发创造

无监督和半监督跨语言词嵌入学习的鲁棒性研究

本文通过大量的评估，分析了多种跨语言嵌入模型的优劣，特别是在目标语言，训练语料库和监督程度等不同方面的限制，从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。

Aug, 2019

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

单语数据的无监督跨语言信息检索

提出一个针对跨语言信息检索的全面无监督框架，通过基于单语语料库构建共享的跨语言词嵌入空间，利用来自对抗神经网络的迭代过程实现无需双语数据的检索，实验验证了该方法的有效性，并通过无监督集成 CLIR 模型提升性能。

May, 2018

跨语言迁移学习中平行数据的作用

本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果；使用这些数据解决一些下游任务的表现。作者发现，即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助，但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类，并可以更大程度地利用单语数据进行多语言建模。

Dec, 2022

跨语言单词嵌入模型的实证比较

通过系统比较四种不同的方法，本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估，包括内在评估和外在评估，并展示在某些任务上，廉价监督模型的性能是有竞争力的。

Apr, 2016

一种强大的自学习方法：全无监督跨语言词嵌入映射

本文提出了一种新的无监督初始化和稳健的自学习算法来学习跨语言词嵌入，成功地克服了传统方法在更实际的语境下所面临的困难，并在标准数据集上取得了最佳效果，甚至超过了以往的监督式系统。

May, 2018

无监督机器翻译的多语言视角

提出了一个概率框架，用于多语言神经机器翻译，特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项，自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明，在大多数方向上，我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上，BLEU 得分比最先进的无监督模型高，并且在罗马尼亚语 - 英语方向上，我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。

Feb, 2020

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

我们是否真的需要完全无监督跨语言嵌入？

本论文研究无监督的跨语言词向量嵌入方法，发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果，表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。

Sep, 2019

通用跨语言文本分类

通过优化现有标签 / 数据集，将不同语言的标签数据与训练相结合，以创建一个通用模型，从而增强标签和语言范围，实现跨语言的文本分类。

Jun, 2024