Jul, 2024

在仅使用英语进行调整查询编码器时保持多语言质量

TL;DR密集通道检索系统可用作信息检索的初始阶段,为下游任务选择最相关的文本段落。本研究通过实验探讨了双编码器的查询部分在仅基于英文数据集进行调整时,多语言检索的质量会降低多少(假设目标领域或任务中跨语言样本稀缺)。具体而言,我们观察到,在高质量的多语言嵌入模型的基础上,仅使用英文调整不仅可以保持多语言检索的原始质量,甚至可以改善。