大规模索引的密集低维信息检索的诅咒

Dec, 2020

大规模索引的密集低维信息检索的诅咒

The Curse of Dense Low-Dimensional Information Retrieval for Large Index Sizes

Nils Reimers, Iryna Gurevych

TL;DR本研究旨在探究在大规模数据索引时使用密集低维表示与传统稀疏表示（如BM25）相比的效能，研究发现在连续增加索引大小时，密集表示的性能下降速度比稀疏表示快，甚至可能出现稀疏表示优于密集表示的拐点，而这一现象与表示的维度数量有密切关系，维度越低，误判（即返回不相关文件的可能性）越高。

Abstract

information retrieval using dense low-dimensional representations recently became popular and showed out-performance to traditional sparse-repres

发现论文，激发创造

最小化FLOPs来学习高效稀疏表示

提出了一种基于正则化函数的方法，学习高维稀疏表示，以在视觉检索中提高效率，其表现与其他基线方法相竞争，且在实际数据集中具有类似或更好的速度精度平衡。

Apr, 2020

文本检索中的稀疏、密集和注意力表示

该研究探讨了双编码器的检索能力，并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制，具体表现为编码维数，金标和排名较低文件之间的边际，以及文档长度。在此基础上，该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型，并探索了稀疏-密集混合模型以提高检索精度，这些模型在大规模检索中胜过强有力的替代方案。

May, 2020

通过生成伪查询嵌入以改善密集检索的文档表示

本论文提出了一种基于聚类的检索模型，通过迭代聚类过程来模拟查询，并将文档表示为多个伪查询，通过两步得分计算程序优化匹配函数，实现了高效的近似最近邻搜索，达到了最先进的结果。

May, 2021

关于DeepImpact、COIL和信息检索技术的概念框架的简要注释

该论文使用一个概念框架将信息检索中的代表性学习的最新进展进行了组织，包括稀疏和密集表示、无监督和学习表示等四个维度。通过分析发现，COIL和DPR、ANCE、DeepCT、DeepImpact之间的关系以及现有技术的不足之处，论文提出一种名为uniCOIL的新技术，并在MS MARCO排名数据集上取得了最先进的结果，具有可操作性。

Jun, 2021

信息检索的稀疏词法和扩展模型SPLADE v2

本文通过对 SPLADE 模型的改进，在效率和效果上都有了提升，其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练，最终取得了在 BEIR 测试上最新的最优结果。

Sep, 2021

无监督对比学习密集信息检索

本文介绍一种无监督训练的密集感知器，使用对比学习 (contrastive learning) 的方法，提高了信息检索的性能，并在多语言检索中表现出强大的跨语言转移能力。

Dec, 2021

密集稀疏检索：使用稀疏语言模型进行推理高效密集检索

研究使用稀疏语言模型替代矢量检索系统来提高推理效率，实验结果表明使用MSMARCO数据集，精确度几乎没下降，推理速度最多提高了4.3倍。

Mar, 2023

信息检索的多元表示学习

本文提出了一种新颖的表示学习框架，用于密集检索模型，框架采用多元分布作为表示，使用负多元KL散度计算相似性，在现有的最近邻算法中无缝集成，实验结果表明，较竞争的密集检索模型有显著的改进。

Apr, 2023

词汇加速的密集检索

LADR是一种简单而有效的方法，通过利用词法检索技术来提高现有的密集检索模型的效率，同时不影响检索效果，建立了一种新的近似k最近邻技术的密集检索效率-效果Pareto边界。

Jul, 2023

密集检索的缩放定律

文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律，并提出使用对比对数似然作为评估指标，并通过大量实验证明，在我们设置下，稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外，文章还通过流行的数据增强方法来检验缩放效果，以评估注释质量的影响，并应用缩放定律来找到在预算限制下的最佳资源分配策略，这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。

Mar, 2024