Aug, 2021

mMARCO:MS MARCO 段落排名数据集的多语言版本

TL;DR该研究介绍了 mMARCO,使用机器翻译创建的包含 13 种语言的 MS MARCO 段落排名数据集的多语言版本,并评估了针对该数据集的多语言重新排名模型和稠密检索模型的效果。研究者们还在零 - shot 场景下使用 mMARCO 数据集微调了模型,在 Mr.TyDi 数据集上展示了多语言模型相对于仅使用英文原版的模型的更高效性。这个研究也表明,翻译质量的提高与检索效果相关,为提高多语版信息检索的效果提供了理论支持。