BEIR: 一个用于零样本评估信息检索模型的异构基准

Apr, 2021

BEIR: 一个用于零样本评估信息检索模型的异构基准

BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models

Nandan Thakur, Nils Reimers, Andreas Rücklé, Abhishek Srivastava, Iryna Gurevych

TL;DRBEIR（Benchmarking-IR）是一个针对信息检索的鲁棒性和异质性评估基准，通过对 18 个公开数据集的评估，发现 BM25 是一个强大的基线，而后期交互和重新排名模型通常可以实现最佳零 - shot 表现，但计算代价高，与此相反，密集和稀疏检索模型的计算效率更高，但往往表现得不如其他方法，突显了它们的可扩展性有很大的改进空间。

Abstract

Existing neural information retrieval (IR) models have often been studied in homogeneous and narrow settings, which has considerably limited insights into their out-of-distribution (OOD) generalization capabilities

neural information retrieval benchmarking-ir generalization capabilities sparse-retrieval models re-ranking

发现论文，激发创造

为 BEIR 酿造提供资源：可重复的参考模型和官方排行榜

BEIR 是一个用于信息检索模型的零样本评估的基准数据集，我们提供了可重现的参考实现，并创建了官方自助 BEIR 排行榜以解决不同模型之间比较困难的问题。

Jun, 2023

BEIR-PL：波兰语零样本信息检索基准

本文旨在建立广泛的大规模波兰语信息检索资源，翻译所有可获得的开放式信息检索数据集并引入 BEIR-PL 基准测试，对其中的数据集进行评估和比较，以进行先进波兰语检索模型的进一步开发、训练和评估，并评估各种 IR 模型的性能，并训练了各种重新排序模型来增强 BM25 检索。

May, 2023

UniIR: 训练和基准测试通用多模态信息检索器

对于信息检索 (IR) 模型通常假设为同质化格式，限制了其适用于各种用户需求，如使用文本描述搜索图片，使用标题图搜索新闻文章或使用查询图搜索相似照片。为了满足这种不同的信息需求，我们引入了 UniIR，一种统一的指令引导多模态检索器，可以处理八个不同的跨模态检索任务。UniIR 是一个单一的检索系统，同时在十个不同的多模态 - IR 数据集上进行训练，解释用户指令来执行各种检索任务，展示了对现有数据集的鲁棒性能以及对新任务的零 - shot 泛化能力。我们的实验突出了多任务训练和指令调整是 UniIR 泛化能力的关键。此外，我们构建了 M-BEIR，一个综合结果的多模态检索基准，用于标准化通用多模态信息检索的评估。

Nov, 2023

BIRCO：具有复杂目标的信息检索任务基准

我们提出了一个信息检索任务的基准（BIRCO），它评估了信息检索系统在给定多方面用户目标的情况下检索文档的能力。该基准的复杂性和紧凑性使其适合评估基于大型语言模型（LLM）的信息检索系统。我们提出了一个模块化框架，用于研究可能影响 LLM 在检索任务上的性能的因素，并识别了一个简单的基准模型，它与现有方法和更复杂的替代方法相匹配或胜过。没有一种方法能够满足所有基准任务的性能要求，这表明需要更强大的模型和新的检索协议来满足复杂的用户需求。

Feb, 2024

超越下游任务准确度的信息检索基准评估

本研究针对查找性能在用户面向场景下的部署需求，提出搜索引擎评估方法应包括准确率和效率，如查询延迟和对硬件环境的成本预算，以及结构评估方法应考虑到查找延迟、硬件成本等效率因素，为广义 IR 评价提供更全面的参考。

Dec, 2022

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

BIRB：生物声学信息检索的泛化度量基准

应对训练和部署条件的差异（例如分布偏移或对全新类别的泛化）对于机器学习模型在实际应用中至关重要。本研究提出了一个复杂的基准测试集 BIRB，以检索从大型公众科学语料库中经过被动记录的数据集中的鸟类声音。通过使用表示学习和最近质心搜索的基线系统，我们的实证评估和分析展示了开放性的研究方向，同时也建议 BIRB 作为更真实、更复杂的基准测试集，来推动对于分布偏移鲁棒性和机器学习模型泛化的进展。

Dec, 2023

PIRB：波兰稠密和混合文本检索方法的综合基准

我们提出了一个综合的评估框架 - 波兰信息检索基准 (PIRB)，其中包括 41 个用于波兰语的文本信息检索任务。该基准涵盖了现有数据集和 10 个涉及医学、法律、商业、物理学和语言学等多样主题的未公开数据集。我们对 20 多个密集和稀疏检索模型进行了广泛评估，包括我们训练的基准模型以及其他现有的波兰语和多语言方法。最后，我们介绍了一个由知识蒸馏、有监督微调和使用轻量级重新评分模型构建的稀疏 - 密集混合检索器的三步训练过程，以提高语言特定的检索器的效果。为了验证我们的方法，我们为波兰语训练了新的文本编码器，并将其结果与先前评估的方法进行了比较。我们的密集模型优于迄今为止最好的解决方案，而混合方法的使用进一步提高了它们的性能。

Feb, 2024

CoIR：代码信息检索模型的综合基准

通过设计了 ame（ extbf {Co} extbf {de} extbf {I} extbf {n} extbf {formation} extbf {R} extbf {etrieval} extbf {B} enchmark）这一强大而全面的基准测试系统，我们针对代码检索的需求进行了深入研究，并评估了九个广泛使用的检索模型，发现即使使用最先进的系统，进行代码检索任务仍然存在重大困难。为了方便与现有研究工作流程的整合和采用， ame 已经开发成一个用户友好的 Python 框架，并可通过 pip 进行快速安装。它与 MTEB 和 BEIR 等其他流行的基准测试系统共享相同的数据模式，实现了无缝的跨基准测试评估。通过 ame，我们旨在推动代码检索领域的研究，提供一种多功能的基准测试工具，鼓励进一步开发和探索代码检索系统。

Jul, 2024

构建可解释和可靠的新领域开放信息检索器

提出了一种信息检索管道，利用实体 / 事件链接模型和查询分解模型来更准确地关注查询的不同信息单元，该管道显著提高了对五个信息检索和问答基准的段落覆盖率和指代准确性。由于其卓越的可解释性和跨领域性能，它将成为需要在新领域上执行信息检索而无需大量投入的应用程序的首选系统。

Aug, 2023