基于伪相关反馈的多重表示密集检索
本文提出了一种新的查询编码器 ——ANCE-PRF,利用伪相关反馈(PRF)来改进稠密检索的查询表示,使用 BERT 编码器消耗查询和从密集检索模型中检索到的顶级文档,直接从相关标签中产生更好的查询嵌入。
Aug, 2021
本文研究了基于稠密循环器的 Pseudo-Relevance Feedback (PRF) 方法,并探讨了其在不同情况下如何提高搜索效果,包括训练过程、推理过程和使用不同的稠密循环器。
Dec, 2021
本文研究了将 Pseudo Relevance Feedback 方法集成到基于深度语言模型的 rerankers 和 dense retrievers 中的方法,并对基于文本和向量的 PRF 方法进行了考虑和评估。在四个数据集和两个任务设置下进行了广泛的实证评估。结果表明,vector-based PRF 方法有效提高了 deep rerankers 和 dense retrievers 的检索和排名效果。
Aug, 2021
通过基于 BERT 的密集向量搜索产生的相关排名,并基于累积求和的查询和选择的嵌入,我们提出了一种更注重召回率的减少审核工作量的方法,该方法可与基线方法相比,以固定的召回目标为基础,减少 17.85% 至 59.04% 的审核工作量。
Nov, 2023
本论文提出了一种基于聚类的检索模型,通过迭代聚类过程来模拟查询,并将文档表示为多个伪查询,通过两步得分计算程序优化匹配函数,实现了高效的近似最近邻搜索,达到了最先进的结果。
May, 2021
使用 RepBERT 来进行文档和查询的表示,通过上下文嵌入的固定长度实现,使用嵌入的内积作为相关性分数,在 MS MARCO Passage Ranking 任务中,RepBERT 在所有初始检索技术中实现了最新的结果。
Jun, 2020
本文以学习到的密集表示为基础,描述了一种紧凑而有效的模型,用于对话搜索中的低延迟段落检索。 通过将对话查询重构直接整合到密集检索模型中,我们提出了一种新方法来解决现有流程的问题。 在构建具有伪相关性标签的数据集的基础上,证明了该模型可用于会话检索和开放域问答数据集,最后通过改进的检索模型学习到的特性,支持混合检索和错误分析。
Apr, 2021
本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型(DPR)进行了复制研究,其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术,使用与原论文相同的模型获得更好的端到端问题答案准确性。
Apr, 2021
本文提出了利用轻量级的推理,将 re-ranker 的命中率反馈给 retriever 的方法,从而提高检索召回率。实验证明,此方法在多个领域、语言和模态下均明显提高了检索召回率。
May, 2023
本文提出了一个用于衡量基于 Transformers 的检索模型的统一框架,该框架基于最佳实践和先前研究中的规范,并使用 MSMARCO 数据集的 dev 集合和 trec_eval 脚本来计算模型的主要指标 MRR@100,通过该框架可以更公平比较不同检索模型。
Aug, 2022