Jan, 2024

消除印度机器翻译任务流行数据集中的误译方法

TL;DR使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验,在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统,并通过消除数据集中的错误翻译来提高翻译质量,进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练,但 ILs-English 在所有评估指标上的表现更好。