Feb, 2024

PIRB:波兰稠密和混合文本检索方法的综合基准

TL;DR我们提出了一个综合的评估框架 - 波兰信息检索基准 (PIRB),其中包括 41 个用于波兰语的文本信息检索任务。该基准涵盖了现有数据集和 10 个涉及医学、法律、商业、物理学和语言学等多样主题的未公开数据集。我们对 20 多个密集和稀疏检索模型进行了广泛评估,包括我们训练的基准模型以及其他现有的波兰语和多语言方法。最后,我们介绍了一个由知识蒸馏、有监督微调和使用轻量级重新评分模型构建的稀疏 - 密集混合检索器的三步训练过程,以提高语言特定的检索器的效果。为了验证我们的方法,我们为波兰语训练了新的文本编码器,并将其结果与先前评估的方法进行了比较。我们的密集模型优于迄今为止最好的解决方案,而混合方法的使用进一步提高了它们的性能。