基于预训练语言模型的密集文本检索：一项调查研究

Nov, 2022

基于预训练语言模型的密集文本检索：一项调查研究

Dense Text Retrieval based on Pretrained Language Models: A Survey

Wayne Xin Zhao, Jing Liu, Ruiyang Ren, Ji-Rong Wen

TL;DR本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展，从架构、训练、索引、集成四个方面总结了主流技术，并提供了网站和代码库等丰富资源以支持读者的研究工作。

Abstract

text retrieval is a long-standing research topic on information seeking, where a system is required to return relevant information resources to user's queries in natural language. From classic retrieval methods t

text retrieval pretrained language models dense retrieval relevance modeling information seeking

发现论文，激发创造

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022

密集稀疏检索：使用稀疏语言模型进行推理高效密集检索

研究使用稀疏语言模型替代矢量检索系统来提高推理效率，实验结果表明使用 MSMARCO 数据集，精确度几乎没下降，推理速度最多提高了 4.3 倍。

Mar, 2023

开放领域问答的低资源稠密检索：一份综合调查报告

本文探讨了基于预训练语言模型的致密检索方法，并提供了在低资源情境下实现致密检索的主流技术概览，根据技术需要的资源将其分为文档、文档和问题，以及文档和问题答案对三个类别，并对每个技术的算法、开放问题和优缺点进行了介绍和总结，最后提出了未来研究的方向。

Aug, 2022

零样本稠密检索的全面探讨

本文通过第一次全面细致的研究，发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型，从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。

Apr, 2022

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

文本生成预训练语言模型综述

本文对基于预训练语言模型的文本生成方法进行了综述，包括如何编码输入、设计生成模型、以及如何优化预训练语言模型以生成特定性质的文本；同时讨论了应用与存在挑战，总结了有用资源和应用举例，并提出了未来研究方向。

Jan, 2022

对话系统中快速轻量级答案文本检索

本文研究表明，使用大量参数的深度学习模型可用于启用高级神经密集检索系统有效地运行于相对廉价的硬件上，特别适用于云服务中支持大量个性化对话系统以及其各自的文本语料库。

May, 2022

对话响应选择中的密集检索探索

该研究提出了一种利用密集检索模型从包含数百万个响应的大型语料库或甚至仅由未配对句子组成的非平行语料库中直接选择适当响应的解决方案，并通过一系列专门设计的学习策略实现其在全范围评估设置下的优越性。

Oct, 2021

一种针对信息检索的表征性方法的概念框架

本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展，该框架试图将稠密和稀疏检索方法整合起来，并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数，将查询和文档映射到表征空间，并计算查询 - 文档分数，同时分析了密集与稀疏表征和监督与无监督方法的影响。最后，作者提供了一个研究路线图，使得该框架更加清晰且提供未来工作的方向。

Oct, 2021

短语检索也学会了段落检索

通过研究密集短语检索系统，探讨短语检索是否可以作为粗粒度检索（如段落和文档）的基础，并提出了短语过滤和矢量量化等方法，可以将检索索引的大小减小至原来的 4-10 倍，从而使得密集短语检索成为多粒度检索的实用解决方案。

Sep, 2021