Mar, 2024

gaHealth:一个英爱双语健康数据语料库

TL;DR机器翻译是许多高资源语言对的成熟技术,然而在低资源语言的情况下,缺乏用于开发翻译模型的平行数据集。本研究开发了针对低资源英语到爱尔兰语领域的特定健康领域的数据集,实验证明使用领域内数据集的好处。通过比较于 LoResMT2021 共享任务的最佳模型,使用 gaHealth 数据集开发的模型在翻译健康相关数据方面的 BLEU 分数最高可以提高 22.2 个百分点(40%)。此外,我们定义了开发 gaHealth 的语言指南,这是为爱尔兰语健康数据开发的第一个双语语料库,我们希望能对其他低资源数据集的创建者有所帮助。gaHealth 现在已经免费在线提供,并可用于进一步研究。