信息检索的稀疏词法和扩展模型 SPLADE v2
本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器,具有高度稀疏的表示,与最先进的密集和稀疏方法相比取得了有竞争力的结果,并探讨了效率和效果之间的平衡。
Jul, 2021
本文主要聚焦于基于预训练语言模型的信息检索系统,提出了一系列技术包括 L1 正则化、分离文档 / 查询编码器、使用更快速的查询编码器等方法,以提高 SPLADE 模型的效率并在领域内数据上提高性能指标。在相同计算限制下,我们提出的神经模型实现了与传统 BM25 相似的延迟和与最先进的单阶段神经排序器相似的性能指标。
Jul, 2022
本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法,结合蒸馏、硬负例挖掘以及预训练语言模型初始化,证明其在效率和效果方面同样具有优势,能够在领域内和零样本情况下实现最先进的结果。
May, 2022
本文提出了一种使用预训练语言模型的信息检索模型 SPLADE,介绍了它在处理实际场景中的鲁棒性及其存在的问题,最后提出了一种无监督领域自适应方法,通过补充语料库中的低频词汇并使用逆文档频率权重来提高检索性能。实验结果表明,该方法在具有大量词汇差距的数据集上优于当前最先进的领域自适应方法,并与 BM25 相结合取得了最新的性能结果。
Nov, 2022
SPLADE-v3 的最新版本引入了训练结构的变化,并呈现了一系列最新的模型。通过对超过 40 个查询集的元分析,与 BM25、SPLADE++ 以及重排序模型进行比较,展示了其有效性。 SPLADE-v3 进一步推动了 SPLADE 模型的极限:在 MS MARCO 开发集上获得超过 40 的 MRR@10,将 BEIR 基准测试的领域外结果提高了 2%。
Mar, 2024
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024
SPRINT 是一个基于 Pyserini 和 Lucene 的统一 Python 工具包,支持评估神经稀疏检索。通过在 BEIR 上建立强大且可复现的零样本稀疏检索基线,我们的结果表明 SPLADEv2 在所有神经稀疏检索器中取得了最佳的平均 0.470 nDCG@10 分数。
Jul, 2023
本文旨在通过引入上下文稀疏表示(Sparc)来改善每个短语嵌入的质量,借助修正的自注意力间接地学习 N-gram 词汇空间中的稀疏向量,通过将前一短语检索模型(Seo 等人,2019)与 Sparc 相结合,我们在 CuratedTREC 和 SQuAD-Open 中展示了 4% 以上的改进,其中我们的 CuratedTREC 得分甚至优于已知的检索和阅读模型,而推理速度至少快 45 倍。
Nov, 2019
介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能,包括问答数据集,MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。
Oct, 2021
研究了适配器在信息检索领域中的应用,指出适配器 - SPLADE 可以优化只有 2%的训练参数,比全微调模型和现有的参数高效密集 IR 模型表现更佳,并探讨了适配器在跨领域 BEIR 数据集和 TripClick 上的领域自适应,以及 正确性的知识共享,从而完善了适配器在神经 IR 中的研究。
Mar, 2023