原子化搜索长度:超越用户模型
本研究考察基于文本摘要以及完整文本的人工评估和神经模型的相关度评估的差异,发现较长的查询和文档类型对于人类和 BERT 模型而言完整文本是有益的,不过人类和机器对完整文本的反应存在不同。
Jan, 2022
本篇研究提出了一种新型的神经信息检索模型 DeepTileBars,能够以子话题和更高层次处理查询到文档之间的匹配关系,其能够更好地捕捉文档的话语结构和匹配模式。实验结果显示,DeepTileBars 在 TREC 2010-2012 Web Tracks 和 LETOR 4.0 等基准数据集上表现优异。
Nov, 2018
本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估,并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性,并提出了发展事实一致性度量的方向。最后,我们发布了我们注释的长文档数据集,希望能为更广泛的概述设置开发度量做出贡献。
Oct, 2022
本文对深度信息检索模型进行了深入研究,通过对两个不同数据集的实证研究,比较了自动学习特征和手工特征的查询词覆盖率、文档长度、嵌入和鲁棒性等方面的差异,并建立了改进现有深度 IR 模型的指南。同时,我们比较了表示重点模型和交互重点模型这两个不同类别的深度 IR 模型,发现两种类型的深度 IR 模型侧重于不同类别的词汇,包括主题相关词汇和查询相关词汇。
Jul, 2017
本研究针对查找性能在用户面向场景下的部署需求,提出搜索引擎评估方法应包括准确率和效率,如查询延迟和对硬件环境的成本预算,以及结构评估方法应考虑到查找延迟、硬件成本等效率因素,为广义 IR 评价提供更全面的参考。
Dec, 2022
本文介绍了一种基于 Docker 的可重复性基础设施,旨在帮助神经信息检索领域更好地解决编码模型、网络架构、硬件加速等多种因素对性能和效果的权衡,并提出了两个基于性能的评价场景。
Jul, 2019
信息检索系统的相关性排序可能引入指示偏见,该研究引入了自动偏见审核框架(PAIR framework)和偏见度量(bias metric),通过对 8 个信息检索系统进行评估,在一系列有争议的主题中,验证了指示偏见如何影响读者意见的预测。
Jun, 2024
本研究综合评估了 13 个模型在排名长文档方面的功能,包括两种专用 Transformer 模型,同时分析了训练和比较这些模型的几个困难。结果表明,虽然 Robust04 和 MS MARCO 文件经常被用于长文件模型的基准测试,但我们认为它们并不特别有用。特别是在考虑到 relevant passages 的分布时,Simple FirstP Baseline 很有效。
Jul, 2022
在这篇论文中,我们探索了一种低资源替代方法,即基于词嵌入的文档检索模型,发现它在与信息检索任务上经过微调的大型 Transformer 模型相比具有竞争力。我们的结果表明,将 TF-IDF(传统的关键词匹配方法)与浅层嵌入模型简单组合,提供了一种低成本的方法,使其在 3 个数据集上与复杂的神经排序模型的性能相媲美。此外,添加 TF-IDF 度量改进了这些任务上大规模微调模型的性能。
Aug, 2023