- 非自回归模型词汇扩容用于高效生成式检索
该论文研究了非自回归语言模型作为生成式检索的更高效的替代方法,并提出了 PIXAR,一种扩展目标词汇的新方法,通过包括多词实体和常见短语(高达 500 万个标记)来减少标记之间的依赖性,并通过推理优化策略在保持低推理延迟的同时实现了好于标准 - 生成式信息检索综述
通过综述 Generative Retrieval(GR)的关键发展、索引和检索策略和挑战,讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向,旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。
- SIGIR生成式检索作为多向量密集检索
生成检索是使用序列到序列架构,以端到端的方式为给定查询生成相关文档标识符的方法。本文通过研究生成检索的注意力层和预测头,揭示了生成检索与多向量稠密检索在测量文档对查询的相关性时采用相同的框架,并通过实验证明了这些方法在对齐矩阵中的术语匹配上 - 蒸馏增强的生成式检索
通过蒸馏技术,提出了一种名为 DGR 的可行框架,利用排名模型作为教师角色,通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型,从而提升了当前生成式检索系统的性能。
- 面向知识密集任务的统一语言模型:利用外部语料库
该研究论文介绍了一种统一的语言模型,通过将生成检索、闭书生成和 RAG 有机地结合,利用外部语料库处理各种知识密集型任务。该模型通过引入不同机制实现了有效的检索和生成,并在广泛使用的 KILT 基准测试中展现了出色的性能。
- ACL生成式密集检索:内存可能成为负担
提出了生成检索(GR)和生成稠密检索(GDR)两种机制,通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题,在小规模语料库中实现了较好的检索性能和可扩展性。
- ACID: 基于内容的抽象式文档检索标识符与语言模型
通过生成式检索方法和使用大型语言模型生成抽象关键短语来构成文件的 ID,与现有的文档 ID 生成方法相比,我们的 ACID 方法在 MSMARCO 100k 检索任务和自然问题 100k 检索任务上分别使得前 10 和前 20 的准确率相对 - 信息检索与大型语言模型结合:中国信息检索社区的战略报告
信息检索领域,自传统搜索开始已经发展得非常成熟,并且扩展到满足用户不同的信息需求。最近,大型语言模型在文本理解、生成和知识推理方面表现出了异常的能力,为信息检索研究打开了令人兴奋的新方向。大型语言模型不仅有助于生成式检索,还为用户理解、模型 - 生成式检索中的学习排序
提出了一个称为 LTRGR 的新框架,结合了生成式检索和经典的学习 - 排序模型,通过使用段落排名损失训练自回归模型,只需要额外的训练步骤即可增强当前的生成式检索系统,并在三个公共数据集上实现了最先进的性能。
- 生成式检索模型的稳健性:一种越界的视角
本文通过定义三个角度的 OOD 鲁棒性来分析多个代表性的生成式检索模型和密集型检索模型的 OOD 鲁棒性,并得出生成式检索模型需要提高 OOD 鲁棒性的结论。
- 动态语料库上的持续更新生成式检索
本研究介绍了一个名为 STREAMINGIR 的新基准,用于评估检索方法对于动态变化语料库(如实时问答)的泛化能力,并比较了双编码器和生成式检索的性能和效率。结果表明,生成式检索在不同程度的监督下表现出不同的性能,但是参数高效的措施可以在某 - ACL多视角标识增强生成检索
本研究提出了一种新的生成式检索方法,使用合成标识符来代替传统的数字 ID 或文本片段标识符。同时,多视图标识符的综合排名可以更好地匹配查询 - 检索。在三个公共数据集上进行的实验证明了这种方法的高效性和稳定性。
- 生成式检索在百万篇章上的可扩展性?
本文对生成式检索技术进行了第一次经验研究,通过使用合成查询作为文档表示进行索引,以及调整内部架构,探索了在不同语料库规模下扩展生成式检索的几个关键点,发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力,但在数百万篇章的大规模语料库上 - IRGAN:统一生成和判别信息检索模型的极小极大博弈
使用博弈理论的极小极大博弈,统一了生成式和判别式信息检索模型,并通过两者竞争优化了两个模型,其中生成式模型从判别式模型得到信号来学习文档相关性分布,而判别式模型通过生成式模型选择的无标签数据优化文档排名。