一种针对信息检索的表征性方法的概念框架
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024
该论文使用一个概念框架将信息检索中的代表性学习的最新进展进行了组织,包括稀疏和密集表示、无监督和学习表示等四个维度。通过分析发现,COIL 和 DPR、ANCE、DeepCT、DeepImpact 之间的关系以及现有技术的不足之处,论文提出一种名为 uniCOIL 的新技术,并在 MS MARCO 排名数据集上取得了最先进的结果,具有可操作性。
Jun, 2021
本文提出了一种新颖的表示学习框架,用于密集检索模型,框架采用多元分布作为表示,使用负多元 KL 散度计算相似性,在现有的最近邻算法中无缝集成,实验结果表明,较竞争的密集检索模型有显著的改进。
Apr, 2023
本文提出了一种基于语言模型的信息检索算法框架的新方法,并将类似文档群的信息整合进去以提高检索效果;实验结果表明,即使是此新方法中的较简单算法也能优于标准语言模型方法,并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。
May, 2004
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏 - 密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020
本文介绍了基于显式稀疏正则化和对术语权重的对数饱和效应的首位排序器,具有高度稀疏的表示,与最先进的密集和稀疏方法相比取得了有竞争力的结果,并探讨了效率和效果之间的平衡。
Jul, 2021
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
Nov, 2022
本论文提出了一种名为 UnifieR 的学习框架,它将基于预训练语言模型的密集向量和基于词汇表的检索统一在一个模型中,并在多个基准测试中验证了其有效性和可转移性。
May, 2022
本论文提出了一种基于聚类的检索模型,通过迭代聚类过程来模拟查询,并将文档表示为多个伪查询,通过两步得分计算程序优化匹配函数,实现了高效的近似最近邻搜索,达到了最先进的结果。
May, 2021
本文介绍了神经信息检索模型以及基础概念和直觉,包括传统的学习排序模型的学习技术和基于神经网路以原始文本学习语言表示的自然语言处理方法。同时,也简单介绍了浅层和深度的神经网络以及目前的深度神经网络检索模型,并探讨了神经信息检索未来的发展方向。
May, 2017