Mar, 2024

KazParC: 机器翻译用的哈萨克平行语料库

TL;DR我们介绍了 KazParC,这是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。KazParC 是首个也是最大的公开可用语料库,包含 371,902 个不同领域的平行句子,是通过人工翻译帮助开发的。我们的研究还延伸到了开发一种名为 Tilmash 的神经机器翻译模型。令人惊讶的是,Tilmash 在某些情况下的性能达到或超过了行业巨头,例如 Google Translate 和 Yandex Translate,由标准评估指标(如 BLEU 和 chrF)衡量。KazParC 和 Tilmash 都可在我们的 GitHub 仓库上以 Creative Commons Attribution 4.0 国际许可证(CC BY 4.0)进行下载。