Apr, 2020

通过图片实现低资源语言的实用可比数据收集

TL;DR通过挑选一组被认为关键的图像,并在源语言和目标语言中分别获取标题,我们提出了一种为语言贫乏地区的高质量可比较的培训数据、从单语注释人员中收集数据的方法。我们使用我们的方法创建的英印比较语料库的人工评估表明,81.1%的配对具有可接受的翻译效果,仅有2.47%的配对根本不是翻译。此外,我们通过在语料库上进行机器翻译和词典提取两项实验来证明了我们方法所收集的数据集的潜力。