Feb, 2024

生成任务中有效的零射击跨语言知识转移的关键要素

TL;DR零 - shot 跨语言生成的前提是在一个语言上对多语言预训练语言模型进行微调,并将其用于其他语言的生成任务中。先前的研究注意到生成错误语言的频繁问题,并提出了解决方法,通常使用 mT5 作为基础模型。本研究在统一设置下比较了文献中提出的各种方法,还包括 mBART 和 NLLB-200 作为备用基础模型。我们首先强调了微调中使用的学习率调整的重要性,这有助于大幅减轻生成错误语言的问题。然后,我们展示了通过仔细调整学习率,简单的模型全面微调作为一个非常强大的基准,备选方法带来的只是微小的改进。最后,我们发现 mBART 的性能与相同大小的 mT5 相似,并且在某些情况下,NLLB-200 可以有竞争力。我们的最终模型达到了基于数据翻译的方法的性能水平,这通常被视为零 - shot 跨语言生成的上限基准。