Jul, 2024
在仅使用英语进行调整查询编码器时保持多语言质量
Preserving Multilingual Quality While Tuning Query Encoder on English Only
Oleg Vasilyev, Randy Sawaya, John Bohannon
TL;DR密集通道检索系统可用作信息检索的初始阶段,为下游任务选择最相关的文本段落。本研究通过实验探讨了双编码器的查询部分在仅基于英文数据集进行调整时,多语言检索的质量会降低多少(假设目标领域或任务中跨语言样本稀缺)。具体而言,我们观察到,在高质量的多语言嵌入模型的基础上,仅使用英文调整不仅可以保持多语言检索的原始质量,甚至可以改善。