Dec, 2022

跨语言迁移学习中平行数据的作用

TL;DR本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来自于真实的平行数据。该研究提示人们重新考虑跨语种学习方法的传统分类,并可以更大程度地利用单语数据进行多语言建模。