密集稀疏检索:使用稀疏语言模型进行推理高效密集检索
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
Nov, 2022
本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器,具有高度稀疏的表示,与最先进的密集和稀疏方法相比取得了有竞争力的结果,并探讨了效率和效果之间的平衡。
Jul, 2021
本文旨在通过引入上下文稀疏表示(Sparc)来改善每个短语嵌入的质量,借助修正的自注意力间接地学习 N-gram 词汇空间中的稀疏向量,通过将前一短语检索模型(Seo 等人,2019)与 Sparc 相结合,我们在 CuratedTREC 和 SQuAD-Open 中展示了 4% 以上的改进,其中我们的 CuratedTREC 得分甚至优于已知的检索和阅读模型,而推理速度至少快 45 倍。
Nov, 2019
本文提出了一种超高维度的表示方案,结合了符号和潜在形式的稀疏表示和神经模型的密集表示,具有直接可控的稀疏度,可以用于高效存储和搜索,并且在 MS MARCO 和 TREC CAR 数据集上得到了比其他稀疏模型更好的性能。
Apr, 2021
本论文提出了一种基于定常块大小的高效稀疏深度学习推断软件堆栈,可以将稀疏加速器应用于 Transformer-based 语言模型,我们的稀疏加速器在处理各种 GEMM 形状时,比现有的稀疏库快一个数量级,在 Xeon 上具有高效的性能。
Jun, 2023
我们研究了大型语言模型的精确稀疏微调问题,通过引入稀疏权重在专门的任务上微调预训练的语言模型。我们提出了一种称为 SquareHead 的基于 L2 范数的蒸馏方法,能够在高稀疏率下实现准确恢复,并展示了稀疏语言模型在 CPU 和 GPU 执行中的速度提升。
Oct, 2023
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024
本文研究基于稀疏表达的 SPLADE 检索器的训练提升方法,结合蒸馏、硬负例挖掘以及预训练语言模型初始化,证明其在效率和效果方面同样具有优势,能够在领域内和零样本情况下实现最先进的结果。
May, 2022
本文提出了一种名为 SparTerm 的框架,旨在将预训练语言模型的深度知识转移至基于词袋法的稀疏表示,以提高其语义级匹配的表达能力,同时保持其效率、可解释性和准确性,并在 MSMARCO 数据集上获得了 state of the art 的排名性能。
Oct, 2020
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏 - 密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020