SPLADE: 用于第一阶段排序的稀疏词汇和扩展模型
本文通过对 SPLADE 模型的改进,在效率和效果上都有了提升,其中包括修改 pooling 机制、基于文档扩展的模型、引入蒸馏训练,最终取得了在 BEIR 测试上最新的最优结果。
Sep, 2021
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024
本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法,结合蒸馏、硬负例挖掘以及预训练语言模型初始化,证明其在效率和效果方面同样具有优势,能够在领域内和零样本情况下实现最先进的结果。
May, 2022
本文提出了一种名为 SparTerm 的框架,旨在将预训练语言模型的深度知识转移至基于词袋法的稀疏表示,以提高其语义级匹配的表达能力,同时保持其效率、可解释性和准确性,并在 MSMARCO 数据集上获得了 state of the art 的排名性能。
Oct, 2020
本文提出了一种超高维度的表示方案,结合了符号和潜在形式的稀疏表示和神经模型的密集表示,具有直接可控的稀疏度,可以用于高效存储和搜索,并且在 MS MARCO 和 TREC CAR 数据集上得到了比其他稀疏模型更好的性能。
Apr, 2021
本研究提出一种基于知识蒸馏的方法,将富有知识的词典嵌入模型对齐到密集检索模型中,从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性,并且与标准排名器蒸馏相结合可以进一步提高检索效果。
Aug, 2022
该论文介绍了现代搜索系统中多阶段排名管道的普遍解决方案,阐述了第一阶段检索模型的传统词项模型和语义模型之间的联系,并针对词汇不匹配问题提出了基于语义的解决思路和神经语义检索技术所带来的机遇和挑战。
Mar, 2021
介绍了一种称为 Salient Phrase Aware Retriever (SPAR) 的密集型检索器,在保留稀疏模型的词法匹配能力的同时,通过加入类似于稀疏模型的词汇模型 Lambda 来提高其检索性能。SPAR 在多个任务上表现出卓越性能,包括问答数据集,MS MARCO 段落检索以及 EntityQuestions 和 BEIR 评估。
Oct, 2021
本文主要聚焦于基于预训练语言模型的信息检索系统,提出了一系列技术包括 L1 正则化、分离文档 / 查询编码器、使用更快速的查询编码器等方法,以提高 SPLADE 模型的效率并在领域内数据上提高性能指标。在相同计算限制下,我们提出的神经模型实现了与传统 BM25 相似的延迟和与最先进的单阶段神经排序器相似的性能指标。
Jul, 2022
本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展,该框架试图将稠密和稀疏检索方法整合起来,并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数,将查询和文档映射到表征空间,并计算查询 - 文档分数,同时分析了密集与稀疏表征和监督与无监督方法的影响。最后,作者提供了一个研究路线图,使得该框架更加清晰且提供未来工作的方向。
Oct, 2021