Jun, 2023

利用迁移学习改进波兰语到英语神经机器翻译:数据量和语言相似性的影响

TL;DR本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响,研究发现,在迁移学习中,拥有更多的数据通常会导致更好的性能,然而,相关语言在特定语言对的数据有限时也可以特别有效,最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明,相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能,同时还表明了相关语言在零样本和小样本时的重要性。