信息检索的多元表示学习

SIGIRApr, 2023

Multivariate Representation Learning for Information Retrieval

Hamed Zamani, Michael Bendersky

TL;DR本文提出了一种新颖的表示学习框架，用于密集检索模型，框架采用多元分布作为表示，使用负多元 KL 散度计算相似性，在现有的最近邻算法中无缝集成，实验结果表明，较竞争的密集检索模型有显著的改进。

Abstract

dense retrieval models use bi-encoder network architectures for learning query and document representations. These representations are often in the form of a vector representation and their similarities are often

dense retrieval models bi-encoder network architectures representation learning multivariate distribution approximate nearest neighbor algorithms

发现论文，激发创造

多视角文档表示学习在开放域密集检索中的应用

本文提出了一种多视角文档表示学习框架，通过生成多个视图嵌入来表示文档，并通过全局 - 局部 loss 函数来防止多视图嵌入坍塌到同一个嵌入中，实现了稳定性的匹配，在密集检索方面取得了最新的成果。

Mar, 2022

通过生成伪查询嵌入以改善密集检索的文档表示

本论文提出了一种基于聚类的检索模型，通过迭代聚类过程来模拟查询，并将文档表示为多个伪查询，通过两步得分计算程序优化匹配函数，实现了高效的近似最近邻搜索，达到了最先进的结果。

May, 2021

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

一种针对信息检索的表征性方法的概念框架

本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展，该框架试图将稠密和稀疏检索方法整合起来，并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数，将查询和文档映射到表征空间，并计算查询 - 文档分数，同时分析了密集与稀疏表征和监督与无监督方法的影响。最后，作者提供了一个研究路线图，使得该框架更加清晰且提供未来工作的方向。

Oct, 2021

为实体检索学习密集表示

使用双编码器模型，在相同的密集向量空间中对实体和提及进行编码，并通过近似最近邻搜索检索候选实体，从而实现实体链接。通过使用维基百科中的锚文本链接训练双编码器，该方法优于离散别名表和 BM25 基线，并且与标准 TACKBP-2010 数据集中最佳结果相当，还可以快速检索候选者，并可以很好地推广到从 Wikinews 推导出的新数据集。在建模方面，我们演示了无监督的负采矿算法在这一任务中的重要作用。

Sep, 2019

你们的 Token 是什么？作为词汇分布的密集检索

本文研究了双编码器在稠密检索中的表征方式，并通过词汇分布提供了对其性能解释的见解。最后，我们提出了一种简单的方法，在推理时使用词汇信息来丰富查询和段落的表征，并表明这显著地提高了在跨领域设置下的性能。

Dec, 2022

分布式变分表示学习

研究了分布式表示学习的问题，提出了信息瓶颈方法的分布式模型，并探究了离散记忆和向量高斯数据模型下的最优复杂性 - 相关性折衷。通过两种算法计算并优化编码映射，证明了该方法在真实数据集上的有效性。

Jul, 2018

使用深度查询交互学习多样的文档表示进行密集检索

提出了一种新的密集检索模型，使用深度查询交互学习多样的文档表示，通过生成的伪查询对每个文档进行编码，以获得查询信息和多视角的文档表示，不仅具有类似于原始双编码器模型的高推理效率，还可以在文档编码中实现深入的查询 - 文档交互并提供多方面的表示来更好地匹配不同的查询。

Aug, 2022

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022