为 BEIR 酿造提供资源:可重复的参考模型和官方排行榜
BEIR(Benchmarking-IR)是一个针对信息检索的鲁棒性和异质性评估基准,通过对 18 个公开数据集的评估,发现 BM25 是一个强大的基线,而后期交互和重新排名模型通常可以实现最佳零 - shot 表现,但计算代价高,与此相反,密集和稀疏检索模型的计算效率更高,但往往表现得不如其他方法,突显了它们的可扩展性有很大的改进空间。
Apr, 2021
本文旨在建立广泛的大规模波兰语信息检索资源,翻译所有可获得的开放式信息检索数据集并引入 BEIR-PL 基准测试,对其中的数据集进行评估和比较,以进行先进波兰语检索模型的进一步开发、训练和评估,并评估各种 IR 模型的性能,并训练了各种重新排序模型来增强 BM25 检索。
May, 2023
应对训练和部署条件的差异(例如分布偏移或对全新类别的泛化)对于机器学习模型在实际应用中至关重要。本研究提出了一个复杂的基准测试集 BIRB,以检索从大型公众科学语料库中经过被动记录的数据集中的鸟类声音。通过使用表示学习和最近质心搜索的基线系统,我们的实证评估和分析展示了开放性的研究方向,同时也建议 BIRB 作为更真实、更复杂的基准测试集,来推动对于分布偏移鲁棒性和机器学习模型泛化的进展。
Dec, 2023
我们提出了一个信息检索任务的基准(BIRCO),它评估了信息检索系统在给定多方面用户目标的情况下检索文档的能力。该基准的复杂性和紧凑性使其适合评估基于大型语言模型(LLM)的信息检索系统。我们提出了一个模块化框架,用于研究可能影响 LLM 在检索任务上的性能的因素,并识别了一个简单的基准模型,它与现有方法和更复杂的替代方法相匹配或胜过。没有一种方法能够满足所有基准任务的性能要求,这表明需要更强大的模型和新的检索协议来满足复杂的用户需求。
Feb, 2024
本文介绍了一种基于 Docker 的可重复性基础设施,旨在帮助神经信息检索领域更好地解决编码模型、网络架构、硬件加速等多种因素对性能和效果的权衡,并提出了两个基于性能的评价场景。
Jul, 2019
该研究旨在提供一种用于跨语言检索模型的组织框架,并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。
Apr, 2023
对于信息检索 (IR) 模型通常假设为同质化格式,限制了其适用于各种用户需求,如使用文本描述搜索图片,使用标题图搜索新闻文章或使用查询图搜索相似照片。为了满足这种不同的信息需求,我们引入了 UniIR,一种统一的指令引导多模态检索器,可以处理八个不同的跨模态检索任务。UniIR 是一个单一的检索系统,同时在十个不同的多模态 - IR 数据集上进行训练,解释用户指令来执行各种检索任务,展示了对现有数据集的鲁棒性能以及对新任务的零 - shot 泛化能力。我们的实验突出了多任务训练和指令调整是 UniIR 泛化能力的关键。此外,我们构建了 M-BEIR,一个综合结果的多模态检索基准,用于标准化通用多模态信息检索的评估。
Nov, 2023
本研究针对查找性能在用户面向场景下的部署需求,提出搜索引擎评估方法应包括准确率和效率,如查询延迟和对硬件环境的成本预算,以及结构评估方法应考虑到查找延迟、硬件成本等效率因素,为广义 IR 评价提供更全面的参考。
Dec, 2022
通过设计了 ame( extbf {Co} extbf {de} extbf {I} extbf {n} extbf {formation} extbf {R} extbf {etrieval} extbf {B} enchmark)这一强大而全面的基准测试系统,我们针对代码检索的需求进行了深入研究,并评估了九个广泛使用的检索模型,发现即使使用最先进的系统,进行代码检索任务仍然存在重大困难。为了方便与现有研究工作流程的整合和采用, ame 已经开发成一个用户友好的 Python 框架,并可通过 pip 进行快速安装。它与 MTEB 和 BEIR 等其他流行的基准测试系统共享相同的数据模式,实现了无缝的跨基准测试评估。通过 ame,我们旨在推动代码检索领域的研究,提供一种多功能的基准测试工具,鼓励进一步开发和探索代码检索系统。
Jul, 2024
本文介绍一种无监督训练的密集感知器,使用对比学习 (contrastive learning) 的方法,提高了信息检索的性能,并在多语言检索中表现出强大的跨语言转移能力。
Dec, 2021