ACLMar, 2024
无监督多语言密集检索生成伪标签
Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling
Chao-Wei Huang, Chen-An Li, Tsu-Yuan Hsu, Chen-Yu Hsu, Yun-Nung Chen
TL;DR本研究介绍了 UMR,一种无需配对数据训练的无监督多语言密集检索器,通过利用多语言语言模型的序列似然估计能力来获取密集检索器训练的伪标签,提出了一个两阶段框架,逐步改善多语言密集检索器的性能,实验证明 UMR 优于有监督基线模型,提升了多语言检索器在实际应用中的可行性。