Nov, 2023
在多语言多层次检索中,利用 LLMs 合成训练数据
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval
Nandan Thakur, Jianmo Ni, Gustavo Hernández Ábrego, John Wieting, Jimmy Lin...
TL;DR通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。