Nov, 2023

盖兹语机器翻译

TL;DR通过研究各种方法改进低资源和古老语言机器翻译,包括从相关语言进行迁移学习,优化共享词汇和令牌分割方法,微调大型预训练模型,并使用大型语言模型实现少量训练样本的模糊匹配翻译,我们开发了一种基于语言相关性的多语言神经机器翻译模型,在标准的双语模型基础上平均性能提高了约4个BLEU。我们还尝试使用NLLB-200模型进行微调,这是目前最先进的翻译模型之一,但发现只有4k个Ge'ez训练样本的性能较差。此外,我们尝试使用GPT-3.5进行带有模糊匹配的少量样本翻译,该模型利用嵌入相似性检索从平行语料库中找到上下文示例。我们观察到,GPT-3.5在不了解Ge'ez的情况下取得了显著的9.2 BLEU分数,但仍低于15.2的多语言神经机器翻译基准。我们的研究为低资源和古老语言机器翻译的不同方法的潜力和限制提供了一些见解。