一种针对信息检索的表征性方法的概念框架

SIGIROct, 2021

一种针对信息检索的表征性方法的概念框架

A Proposed Conceptual Framework for a Representational Approach to Information Retrieval

Jimmy Lin

TL;DR本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展，该框架试图将稠密和稀疏检索方法整合起来，并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数，将查询和文档映射到表征空间，并计算查询 - 文档分数，同时分析了密集与稀疏表征和监督与无监督方法的影响。最后，作者提供了一个研究路线图，使得该框架更加清晰且提供未来工作的方向。

Abstract

This paper outlines a conceptual framework for understanding recent developments in information retrieval and natural language processing that attempts to integrate dense and →

information retrieval natural language processing dense retrieval sparse retrieval representational approach

发现论文，激发创造

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

关于 DeepImpact、COIL 和信息检索技术的概念框架的简要注释

该论文使用一个概念框架将信息检索中的代表性学习的最新进展进行了组织，包括稀疏和密集表示、无监督和学习表示等四个维度。通过分析发现，COIL 和 DPR、ANCE、DeepCT、DeepImpact 之间的关系以及现有技术的不足之处，论文提出一种名为 uniCOIL 的新技术，并在 MS MARCO 排名数据集上取得了最先进的结果，具有可操作性。

Jun, 2021

信息检索的多元表示学习

本文提出了一种新颖的表示学习框架，用于密集检索模型，框架采用多元分布作为表示，使用负多元 KL 散度计算相似性，在现有的最近邻算法中无缝集成，实验结果表明，较竞争的密集检索模型有显著的改进。

Apr, 2023

语料库结构、语言模型和即席信息检索

本文提出了一种基于语言模型的信息检索算法框架的新方法，并将类似文档群的信息整合进去以提高检索效果；实验结果表明，即使是此新方法中的较简单算法也能优于标准语言模型方法，并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。

May, 2004

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏 - 密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型

本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器，具有高度稀疏的表示，与最先进的密集和稀疏方法相比取得了有竞争力的结果，并探讨了效率和效果之间的平衡。

Jul, 2021

基于预训练语言模型的密集文本检索：一项调查研究

本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展，从架构、训练、索引、集成四个方面总结了主流技术，并提供了网站和代码库等丰富资源以支持读者的研究工作。

Nov, 2022

UnifieR: 大规模信息检索统一检索器

本论文提出了一种名为 UnifieR 的学习框架，它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中，并在多个基准测试中验证了其有效性和可转移性。

May, 2022

通过生成伪查询嵌入以改善密集检索的文档表示

本论文提出了一种基于聚类的检索模型，通过迭代聚类过程来模拟查询，并将文档表示为多个伪查询，通过两步得分计算程序优化匹配函数，实现了高效的近似最近邻搜索，达到了最先进的结果。

May, 2021

信息检索的神经模型

本文介绍了神经信息检索模型以及基础概念和直觉，包括传统的学习排序模型的学习技术和基于神经网路以原始文本学习语言表示的自然语言处理方法。同时，也简单介绍了浅层和深度的神经网络以及目前的深度神经网络检索模型，并探讨了神经信息检索未来的发展方向。

May, 2017