ACLApr, 2020

无监督跨语言学习需要更严谨的方法

TL;DR本文回顾了无监督跨语言学习的动机、定义、方法和方法,并呼吁对每个方面进行更严格的立场。本研究的现有基础是基于世界上许多语言缺乏平行数据的事实。然而,我们认为实践中不存在不需要任何平行数据而有丰富单语数据的情况。本文还讨论了以前使用的不同训练信号,这些信号与纯无监督设置不同。然后,我们描述了无监督跨语言模型调整和评估的常见方法问题并提出最佳实践。最后,我们为这个领域中的不同类型的研究提供了统一的前景(即跨语言词嵌入,深度多语言预训练和无监督机器翻译),并主张对这些模型进行可比较的评估。