UnifieR: 大规模信息检索统一检索器
本研究提出一种基于知识蒸馏的方法,将富有知识的词典嵌入模型对齐到密集检索模型中,从而在第一阶段检索中取得稳定且显著的提高。在三组公开数据集上的实验证明了该模型的有效性,并且与标准排名器蒸馏相结合可以进一步提高检索效果。
Aug, 2022
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
Nov, 2022
该研究提出了 UNIFY 框架,通过学习词库表示来捕捉细粒度语义概念,并结合潜在表示和词库表示的优势进行视频文本检索。实验证明,UNIFY 框架大大优于先前的视频文本检索方法,在 MSR-VTT 和 DiDeMo 上分别提高了 4.8% 和 8.2% 的 Recall@1。
Feb, 2024
本研究介绍了 UMR,一种无需配对数据训练的无监督多语言密集检索器,通过利用多语言语言模型的序列似然估计能力来获取密集检索器训练的伪标签,提出了一个两阶段框架,逐步改善多语言密集检索器的性能,实验证明 UMR 优于有监督基线模型,提升了多语言检索器在实际应用中的可行性。
Mar, 2024
本文提出了一种新的框架 Uni-Retriever,通过知识蒸馏和对比学习的方式,联合进行高相关性和高 CTR 检索的多目标学习过程,以生成嵌入式向量进行嵌入式检索,该检索方式可以实现广告检索的两个目标。经多项测试验证,该方法显著提高了 Bing 检索系统的检索效果。
Feb, 2022
本文提出了一个概念框架来理解信息检索和自然语言处理中的最新发展,该框架试图将稠密和稀疏检索方法整合起来,并将文本检索问题分成逻辑评分模型和物理检索模型。作者提出度量器和比较函数,将查询和文档映射到表征空间,并计算查询 - 文档分数,同时分析了密集与稀疏表征和监督与无监督方法的影响。最后,作者提供了一个研究路线图,使得该框架更加清晰且提供未来工作的方向。
Oct, 2021
UniGen 是一种集成了生成式检索和问答功能的统一生成模型,通过使用大型语言模型,UniGen 采用一个共享编码器和两个不同的解码器,引入连接器来弥补查询输入和生成目标、文档标识符和答案之间的差距,并提出了一种迭代增强策略来通过生成的答案和检索的文档迭代地改进两个任务,在 MS MARCO 和 NQ 数据集上的广泛实验证明了 UniGen 在检索和问答任务中具有优越的性能。
Dec, 2023
本文提出了一种新颖的表示学习框架,用于密集检索模型,框架采用多元分布作为表示,使用负多元 KL 散度计算相似性,在现有的最近邻算法中无缝集成,实验结果表明,较竞争的密集检索模型有显著的改进。
Apr, 2023
本文提出了一种多视角文档表示学习框架,通过生成多个视图嵌入来表示文档,并通过全局 - 局部 loss 函数来防止多视图嵌入坍塌到同一个嵌入中,实现了稳定性的匹配,在密集检索方面取得了最新的成果。
Mar, 2022
通过最小化词汇匹配问题,扩展增强的稀疏词汇表示改善了信息检索,并通过联合学习密集语义表示并将其与词汇表示结合来对候选信息进行排序的潜力进行了探讨。我们提出了一种混合信息检索机制,通过最大化词汇和语义匹配来最小化它们的缺点。我们的架构由独立编码查询和信息元素的双重混合编码器组成。每个编码器通过对应文本的可对比学习的术语扩展来联合学习密集语义表示和稀疏词汇表示。我们在包含在线产品页面上可用的典型异构信息的基准产品问答数据集上展示了我们模型的有效性。我们的评估表明,我们的混合方法在 MRR@5 分数上比独立训练的检索器提高了 10.95%(稀疏)和 2.7%(密集)。此外,我们的模型在减少响应时间(延迟)30% 和减少计算负载(FLOPs)约 38% 的同时,提供了更好的可解释性,并且表现与最先进的交叉编码器相当。
May, 2024