- 开放领域问答的低资源稠密检索:一份综合调查报告
本文探讨了基于预训练语言模型的致密检索方法,并提供了在低资源情境下实现致密检索的主流技术概览,根据技术需要的资源将其分为文档、文档和问题,以及文档和问题答案对三个类别,并对每个技术的算法、开放问题和优缺点进行了介绍和总结,最后提出了未来研究 - ACL只需要问题:密集式段落检索器训练
ART 是一种新的语料库自动编码方法,用于训练密集检索模型,通过未标注的输入和输出实现了高效的无监督学习,且在不需要标记数据和任务特定的损失的情况下,在多个 QA 检索基准测试中获得了最先进的结果。
- 优化密集检索的测试时查询表示
本篇论文介绍了 TouR 方法,它可以通过测试时间的检索结果来进一步优化基于实例级别的查询表示,从而提高密集检索和开放域问答的性能。
- EMNLP通过遮蔽自编码器预训练针对检索的语言模型 RetroMAE
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARC - SIGIR稠密检索蒸馏的课程学习
本研究提出了一种基于课程学习的优化框架 CL-DRD,通过控制先前重排(教师)模型产生的训练数据难度级别来优化稠密检索(学生)模型,在三个公共语段检索数据集上的实验证明了该框架的有效性。
- 零样本稠密检索的全面探讨
本文通过第一次全面细致的研究,发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型,从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。
- SIGIR通过对比跨度预测来预训练用于密集检索的判别性文本编码器
本文介绍了一种新型对比度跨度预测任务,该任务实现了仅训练编码器但仍具备自动编码器的瓶颈能力,在大数据检索的场景中通过组内对比度学习方法能够高效的学习出具有区分度的文本表示,避免了解码器的旁路效应。
- 对话响应全秩检索的稀疏和密集方法
本文针对完整回应的检索任务,提出了对话背景和回应扩充技术的检索方法,探析了稀疏检索和零样本以及微调密集检索方法,并发现通过练习 “学习到的回应扩充技术” 是稀疏检索的一个坚实基础。我们最终发现,整体表现最好的方法是密集的检索中级训练,即是模 - 检索增强的无监督跨任务泛化
本研究提出了一种叫做 ReCross 的检索增强方法,用于提升大规模多任务语言模型在无监督环境下的交叉任务泛化能力。结果表明,该方法显著优于其他基线方法。
- ACL多视角文档表示学习在开放域密集检索中的应用
本文提出了一种多视角文档表示学习框架,通过生成多个视图嵌入来表示文档,并通过全局 - 局部 loss 函数来防止多视图嵌入坍塌到同一个嵌入中,实现了稳定性的匹配,在密集检索方面取得了最新的成果。
- 基于 Bag 采样和分组损失的文档排序中的标签噪声信息检索
该研究提出了预训练模型、包采样和基于组的本地对比评估(LCE)方法以消除长文档排序中的噪音、数据标签噪音、负数据不平衡采样等问题。在 MS MARCO 长文档排名榜上表现出了良好的性能。
- 建立 TripClick 健康检索的强基准
本研究基于 Transformer 的修改方法和负样本抽样策略在 TripClick 健康信息检索集合中取得较大的提升,同时使用领域特定的预训练模型,将稠密检索与 BM25 进行比较,发现即使使用简单的训练过程,稠密检索也能显著优于 BM2 - 零样本稠密检索与动量对抗领域不变表示
提出了一种使用 Momentun 动态学习率的对抗方法在零样本的情况下,通过训练一个区分源域和目标域的域分类器并更新密集检索编码器来学习域不变表示的方法,该方法在 10+ 个 BEIR 基准排名数据集上表现出了显著的增益。
- WSDM通过约束聚类学习离散表示以实现有效和高效的密集检索
RepCONC 是一种通过 CONstrained Clustering 学习离散文档表示形式来实现快速近似最近邻搜索的新型检索模型,它为量化建模提供了约束聚类方法,并在两个受欢迎的信息检索基准测试上展示了比竞争向量量化基线更好的排名效果。
- SIGIR一种针对信息检索的表征性方法的概念框架
本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展,该框架试图将稠密和稀疏检索方法整合起来,并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数,将查询和文档映射到表征空间,并计算查询 - 文档分数,同时分析 - 使用伪相关反馈技术改进密集检索的查询表示
本文提出了一种新的查询编码器 ——ANCE-PRF,利用伪相关反馈(PRF)来改进稠密检索的查询表示,使用 BERT 编码器消耗查询和从密集检索模型中检索到的顶级文档,直接从相关标签中产生更好的查询嵌入。
- EMNLPMr. TyDi: 为密集检索提供多语言评测基准
介绍了 Mr.TyDi - 一个包括 11 种不同语言、多语言检索基准数据集,旨在评估利用学习的密集表示进行排名的效果。通过提供多语言 DPR 等基线模型,实验结果表明,虽然效果比 BM25 模型要差,但密集表示仍然可以提供有价值的相关信号 - 共同优化查询编码器和产品量化来提高检索性能
本文介绍了一种名为 JPQ 的联合优化方法,该方法结合了查询编码和 Product Quantization,以实现高效的 Dense Retrieval,并在两个公开的评估基准测评中获得了显着的性能提升。
- 基于伪相关反馈的多重表示密集检索
本研究探讨了基于伪相关反馈的多重嵌入密集检索方法的潜力。通过从第一遍密集检索中确定的伪相关文件集中提取代表性反馈嵌入,然后将其添加到查询表示中,证明了这些附加反馈嵌入不仅能够提高重新排序的有效性,还能提高附加密集检索操作的效率。
- SIGIR少样本对话密集检索
本文提出了 ConvDR,一个用于多轮对话的稠密检索系统,它通过学习上下文化嵌入,仅使用嵌入点积来检索文档,并使用教师 - 学生框架赋予 ConvDR 少样本学习能力。在 TREC CAsT 和 OR-QuAC 上的实验表明,ConvDR