ACLMay, 2023

通过人工混合数据训练来提升零样本跨语言检索

TL;DR本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。