原子化搜索长度：超越用户模型

Jan, 2022

Atomized Search Length: Beyond User Models

John Alex, Keith Hall, Donald Metzler

TL;DR本文研究基于用户体验的现有 IR 度量过于狭窄，如何使用新的系统度量方法来均匀而准确地测量 IR 系统中的所有相关文档，并在超过 70 个 TREC 轨迹以及 2020 年深度学习轨迹中展示了结果。

Abstract

We argue that current IR metrics, modeled on optimizing user experience, measure too narrow a portion of the IR space. If ir systems are weak, these →

ir systems metrics documents trec tracks deep learning

发现论文，激发创造

少即是少：何时片段不足以进行人类与机器相关性评估？

本研究考察基于文本摘要以及完整文本的人工评估和神经模型的相关度评估的差异，发现较长的查询和文档类型对于人类和 BERT 模型而言完整文本是有益的，不过人类和机器对完整文本的反应存在不同。

Jan, 2022

DeepTileBars：神经信息检索术语分布可视化

本篇研究提出了一种新型的神经信息检索模型 DeepTileBars，能够以子话题和更高层次处理查询到文档之间的匹配关系，其能够更好地捕捉文档的话语结构和匹配模式。实验结果显示，DeepTileBars 在 TREC 2010-2012 Web Tracks 和 LETOR 4.0 等基准数据集上表现优异。

Nov, 2018

强大长文摘要化还有多远？

本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Oct, 2022

深入探讨深度 IR 模型

本文对深度信息检索模型进行了深入研究，通过对两个不同数据集的实证研究，比较了自动学习特征和手工特征的查询词覆盖率、文档长度、嵌入和鲁棒性等方面的差异，并建立了改进现有深度 IR 模型的指南。同时，我们比较了表示重点模型和交互重点模型这两个不同类别的深度 IR 模型，发现两种类型的深度 IR 模型侧重于不同类别的词汇，包括主题相关词汇和查询相关词汇。

Jul, 2017

超越下游任务准确度的信息检索基准评估

本研究针对查找性能在用户面向场景下的部署需求，提出搜索引擎评估方法应包括准确率和效率，如查询延迟和对硬件环境的成本预算，以及结构评估方法应考虑到查找延迟、硬件成本等效率因素，为广义 IR 评价提供更全面的参考。

Dec, 2022

测量运行时间！扩展 IR 可重复性基础设施以包括性能方面

本文介绍了一种基于 Docker 的可重复性基础设施，旨在帮助神经信息检索领域更好地解决编码模型、网络架构、硬件加速等多种因素对性能和效果的权衡，并提出了两个基于性能的评价场景。

Jul, 2019

长文档摘要的实证调查：数据集、模型和度量

本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展，包括基准数据集、摘要模型和评估方法，并提出未来工作的方向。

Jul, 2022

信息检索中的索引偏见的测量和应对

信息检索系统的相关性排序可能引入指示偏见，该研究引入了自动偏见审核框架（PAIR framework）和偏见度量（bias metric），通过对 8 个信息检索系统进行评估，在一系列有争议的主题中，验证了指示偏见如何影响读者意见的预测。

Jun, 2024

通过综合评估和排行榜了解长文档排名模型的性能

本研究综合评估了 13 个模型在排名长文档方面的功能，包括两种专用 Transformer 模型，同时分析了训练和比较这些模型的几个困难。结果表明，虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试，但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时，Simple FirstP Baseline 很有效。

Jul, 2022

运用传统信息检索方法提升神经排序模型

在这篇论文中，我们探索了一种低资源替代方法，即基于词嵌入的文档检索模型，发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明，将 TF-IDF（传统的关键词匹配方法）与浅层嵌入模型简单组合，提供了一种低成本的方法，使其在 3 个数据集上与复杂的神经排序模型的性能相媲美。此外，添加 TF-IDF 度量改进了这些任务上大规模微调模型的性能。

Aug, 2023