信息检索的稀疏词法和扩展模型 SPLADE v2

Sep, 2021

信息检索的稀疏词法和扩展模型 SPLADE v2

SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval

Thibault Formal, Carlos Lassance, Benjamin Piwowarski, Stéphane Clinchant

TL;DR本文通过对 SPLADE 模型的改进，在效率和效果上都有了提升，其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练，最终取得了在 BEIR 测试上最新的最优结果。

Abstract

In neural information retrieval (IR), ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest neighbors methods has proven to work well. Meanwhile, there has been a growi

neural information retrieval sparse representation splade model document expansion distillation

发现论文，激发创造

SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型

本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器，具有高度稀疏的表示，与最先进的密集和稀疏方法相比取得了有竞争力的结果，并探讨了效率和效果之间的平衡。

Jul, 2021

SPLADE 模型效率研究

本文主要聚焦于基于预训练语言模型的信息检索系统，提出了一系列技术包括 L1 正则化、分离文档 / 查询编码器、使用更快速的查询编码器等方法，以提高 SPLADE 模型的效率并在领域内数据上提高性能指标。在相同计算限制下，我们提出的神经模型实现了与传统 BM25 相似的延迟和与最先进的单阶段神经排序器相似的性能指标。

Jul, 2022

从蒸馏到硬负采样：使稀疏神经 IR 模型更加有效

本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法，结合蒸馏、硬负例挖掘以及预训练语言模型初始化，证明其在效率和效果方面同样具有优势，能够在领域内和零样本情况下实现最先进的结果。

May, 2022

通过填补单词表和词频间隙实现稀疏检索的无监督领域自适应

本文提出了一种使用预训练语言模型的信息检索模型 SPLADE，介绍了它在处理实际场景中的鲁棒性及其存在的问题，最后提出了一种无监督领域自适应方法，通过补充语料库中的低频词汇并使用逆文档频率权重来提高检索性能。实验结果表明，该方法在具有大量词汇差距的数据集上优于当前最先进的领域自适应方法，并与 BM25 相结合取得了最新的性能结果。

Nov, 2022

SPLADE-v3: SPLADE 的新基准

SPLADE-v3 的最新版本引入了训练结构的变化，并呈现了一系列最新的模型。通过对超过 40 个查询集的元分析，与 BM25、SPLADE++ 以及重排序模型进行比较，展示了其有效性。 SPLADE-v3 进一步推动了 SPLADE 模型的极限：在 MS MARCO 开发集上获得超过 40 的 MRR@10，将 BEIR 基准测试的领域外结果提高了 2%。

Mar, 2024

产品问答中高效易于解释的异构数据信息检索

通过最小化词汇匹配问题，扩展增强的稀疏词汇表示改善了信息检索，并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制，通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明，我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%（稀疏）和 2.7%（密集）。此外，我们的模型在减少响应时间（延迟）30% 和减少计算负载（FLOPs）约 38% 的同时，提供了更好的可解释性，并且表现与最先进的交叉编码器相当。

May, 2024

SPRINT：零射懿蜷神经稀疏检索的统一工具包

SPRINT 是一个基于 Pyserini 和 Lucene 的统一 Python 工具包，支持评估神经稀疏检索。通过在 BEIR 上建立强大且可复现的零样本稀疏检索基线，我们的结果表明 SPLADEv2 在所有神经稀疏检索器中取得了最佳的平均 0.470 nDCG@10 分数。

Jul, 2023

上下文化稀疏表示法用于实时开放域问答

本文旨在通过引入上下文稀疏表示（Sparc）来改善每个短语嵌入的质量，借助修正的自注意力间接地学习 N-gram 词汇空间中的稀疏向量，通过将前一短语检索模型（Seo 等人，2019）与 Sparc 相结合，我们在 CuratedTREC 和 SQuAD-Open 中展示了 4% 以上的改进，其中我们的 CuratedTREC 得分甚至优于已知的检索和阅读模型，而推理速度至少快 45 倍。

Nov, 2019

突出短语感知的密集检索：密集检索器是否能模仿稀疏检索器？

介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器，在保留稀疏模型的词法匹配能力的同时，通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能，包括问答数据集，MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。

Oct, 2021

使用适配器的参数高效稀疏检索器和重排器

研究了适配器在信息检索领域中的应用，指出适配器 - SPLADE 可以优化只有 2％的训练参数，比全微调模型和现有的参数高效密集 IR 模型表现更佳，并探讨了适配器在跨领域 BEIR 数据集和 TripClick 上的领域自适应，以及正确性的知识共享，从而完善了适配器在神经 IR 中的研究。

Mar, 2023