蒸馏增强的生成式检索
提出了一个称为 LTRGR 的新框架,结合了生成式检索和经典的学习 - 排序模型,通过使用段落排名损失训练自回归模型,只需要额外的训练步骤即可增强当前的生成式检索系统,并在三个公共数据集上实现了最先进的性能。
Jun, 2023
提出了一种新的训练方法,称为 G2R(Generative-to-Retrieval distillation),它通过将生成模型的知识注入检索模型中,从而保留检索模型的效率和大规模生成模型的会话能力,通过人工评估等广泛实验证明,使用 G2R 训练的检索型对话系统相比于基准检索模型显示出大幅提高的性能,同时显示出显着较低的推理延迟。
Aug, 2021
通过综述 Generative Retrieval(GR)的关键发展、索引和检索策略和挑战,讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向,旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。
Jun, 2024
本文提出了一种名为 FGD 的新学习框架,可以通过 multi-granular aligned distillation 快速有效地在长文档中检索相关文档,同时保留了传统的密集检索模式。
Dec, 2022
本文提出了一种名为 GripRank 的算法,它通过从一个生成式的通道评估器到一个通道排名器的知识精华的提炼来解决候选通道在检索过程中被平等对待的问题,并通过设计一套课程知识提炼机制来提升知识的提炼质量,实现了对答案的生成和文本排名的优化,最终在 KILT 基准测试中展现出优于同类方法的结果。
May, 2023
密集路径检索(DPR)是提升大型语言模型(LLM)性能的检索增强生成(RAG)范式中的第一步,本研究通过探测、层激活分析和模型编辑的组合,深入研究 DPR fine-tuning,发现 DPR 训练方式中的去中心化存储及其对检索模型的限制,为密集检索提供了几个可能的方向:(1)将更多知识暴露给 DPR 训练过程以实现更多的去中心化,(2)将事实作为分散表示注入,(3)在检索过程中建模和融入知识的不确定性,以及(4)将内部模型知识直接映射到知识库。
Feb, 2024
本文对生成式检索技术进行了第一次经验研究,通过使用合成查询作为文档表示进行索引,以及调整内部架构,探索了在不同语料库规模下扩展生成式检索的几个关键点,发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力,但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。
May, 2023
该研究提出了一种基于 Metric Distillation Rule 的常识句子生成方法,通过传递重要性知识来使检索预测结果更加一致并提高性能。
Oct, 2022
提出了生成检索(GR)和生成稠密检索(GDR)两种机制,通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题,在小规模语料库中实现了较好的检索性能和可扩展性。
Jan, 2024
信息检索系统 (IR) 是用户访问信息的关键工具,也是搜索引擎、问答系统和推荐系统等场景中被广泛应用的工具。本文综述了生成式信息检索 (GenIR) 的最新研究进展,涉及到生成式文档检索 (GR)、可靠响应生成以及 GenIR 系统的评估、挑战和未来前景。
Apr, 2024