基于伪相关反馈的多重表示密集检索

Jun, 2021

基于伪相关反馈的多重表示密集检索

Pseudo-Relevance Feedback for Multiple Representation Dense Retrieval

Xiao Wang, Craig Macdonald, Nicola Tonellotto, Iadh Ounis

TL;DR本研究探讨了基于伪相关反馈的多重嵌入密集检索方法的潜力。通过从第一遍密集检索中确定的伪相关文件集中提取代表性反馈嵌入，然后将其添加到查询表示中，证明了这些附加反馈嵌入不仅能够提高重新排序的有效性，还能提高附加密集检索操作的效率。

Abstract

pseudo-relevance feedback mechanisms, from Rocchio to the relevance models, have shown the usefulness of expanding and reweighting the users' initial queries using information occurring in an initial set of retrieved documents, known as the pseudo-relevant set. Recently, →

dense retrieval pseudo-relevance feedback embedding neural contextual language models information retrieval

发现论文，激发创造

使用伪相关反馈技术改进密集检索的查询表示

本文提出了一种新的查询编码器 ——ANCE-PRF，利用伪相关反馈（PRF）来改进稠密检索的查询表示，使用 BERT 编码器消耗查询和从密集检索模型中检索到的顶级文档，直接从相关标签中产生更好的查询嵌入。

Aug, 2021

基于伪相关反馈的密集检索查询表示：重现性研究

本文研究了基于稠密循环器的 Pseudo-Relevance Feedback (PRF) 方法，并探讨了其在不同情况下如何提高搜索效果，包括训练过程、推理过程和使用不同的稠密循环器。

Dec, 2021

采用深度语言模型和密集检索器的伪相关反馈：成功与困难

本文研究了将 Pseudo Relevance Feedback 方法集成到基于深度语言模型的 rerankers 和 dense retrievers 中的方法，并对基于文本和向量的 PRF 方法进行了考虑和评估。在四个数据集和两个任务设置下进行了广泛的实证评估。结果表明，vector-based PRF 方法有效提高了 deep rerankers 和 dense retrievers 的检索和排名效果。

Aug, 2021

针对召回导向的神经信息检索的相关性反馈策略

通过基于 BERT 的密集向量搜索产生的相关排名，并基于累积求和的查询和选择的嵌入，我们提出了一种更注重召回率的减少审核工作量的方法，该方法可与基线方法相比，以固定的召回目标为基础，减少 17.85% 至 59.04% 的审核工作量。

Nov, 2023

通过生成伪查询嵌入以改善密集检索的文档表示

本论文提出了一种基于聚类的检索模型，通过迭代聚类过程来模拟查询，并将文档表示为多个伪查询，通过两步得分计算程序优化匹配函数，实现了高效的近似最近邻搜索，达到了最先进的结果。

May, 2021

RepBERT: 一阶段检索的上下文化文本嵌入

使用 RepBERT 来进行文档和查询的表示，通过上下文嵌入的固定长度实现，使用嵌入的内积作为相关性分数，在 MS MARCO Passage Ranking 任务中，RepBERT 在所有初始检索技术中实现了最新的结果。

Jun, 2020

面向交谈式搜索的上下文化查询嵌入

本文以学习到的密集表示为基础，描述了一种紧凑而有效的模型，用于对话搜索中的低延迟段落检索。通过将对话查询重构直接整合到密集检索模型中，我们提出了一种新方法来解决现有流程的问题。在构建具有伪相关性标签的数据集的基础上，证明了该模型可用于会话检索和开放域问答数据集，最后通过改进的检索模型学习到的特性，支持混合检索和错误分析。

Apr, 2021

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

神经信息检索推理时重排反馈

本文提出了利用轻量级的推理，将 re-ranker 的命中率反馈给 retriever 的方法，从而提高检索召回率。实验证明，此方法在多个领域、语言和模态下均明显提高了检索召回率。

May, 2023

使用 Transformer 评估密集通道检索

本文提出了一个用于衡量基于 Transformers 的检索模型的统一框架，该框架基于最佳实践和先前研究中的规范，并使用 MSMARCO 数据集的 dev 集合和 trec_eval 脚本来计算模型的主要指标 MRR@100，通过该框架可以更公平比较不同检索模型。

Aug, 2022