Jun, 2023

少即是多”:“少样本” 质量评估基于语料库过滤提升机器翻译

TL;DR本文提出了一种基于质量评估的过滤方法,以从伪平行语料库中提取高质量的平行数据,并通过使用过滤后的语料库进行训练,改善了机器翻译系统的性能。该方法在英语 - 马拉地语、中文 - 英语和印地语 - 孟加拉语语言对中表现出了很好的效果,通过迁移学习在仅使用 500 个印地语 - 孟加拉语训练实例的情况下,相比基准模型提高了最多 0.6 个 BLEU 分数。