蒸馏增强的生成式检索

Feb, 2024

Distillation Enhanced Generative Retrieval

Yongqi Li, Zhen Zhang, Wenjie Wang, Liqiang Nie, Wenjie Li...

TL;DR通过蒸馏技术，提出了一种名为 DGR 的可行框架，利用排名模型作为教师角色，通过专门设计的蒸馏 RankNet loss 来优化生成式检索模型，从而提升了当前生成式检索系统的性能。

Abstract

generative retrieval is a promising new paradigm in text retrieval that generates identifier strings of relevant passages as the retrieval target. This paradigm leverages powerful generative language models, distinct from traditional sparse or dense retrieval methods. In this work, we

generative retrieval distillation dgr ranking models state-of-the-art performance

发现论文，激发创造

生成式检索中的学习排序

提出了一个称为 LTRGR 的新框架，结合了生成式检索和经典的学习 - 排序模型，通过使用段落排名损失训练自回归模型，只需要额外的训练步骤即可增强当前的生成式检索系统，并在三个公共数据集上实现了最先进的性能。

Jun, 2023

将大规模生成模型的知识提炼为检索模型，用于高效的开放域对话

提出了一种新的训练方法，称为 G2R（Generative-to-Retrieval distillation），它通过将生成模型的知识注入检索模型中，从而保留检索模型的效率和大规模生成模型的会话能力，通过人工评估等广泛实验证明，使用 G2R 训练的检索型对话系统相比于基准检索模型显示出大幅提高的性能，同时显示出显着较低的推理延迟。

Aug, 2021

生成式信息检索综述

通过综述 Generative Retrieval（GR）的关键发展、索引和检索策略和挑战，讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向，旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。

Jun, 2024

长文检索的细粒度蒸馏

本文提出了一种名为 FGD 的新学习框架，可以通过 multi-granular aligned distillation 快速有效地在长文档中检索相关文档，同时保留了传统的密集检索模式。

Dec, 2022

GripRank: 通过生成式知识改进的段落排序填补检索和生成之间的差距

本文提出了一种名为 GripRank 的算法，它通过从一个生成式的通道评估器到一个通道排名器的知识精华的提炼来解决候选通道在检索过程中被平等对待的问题，并通过设计一套课程知识提炼机制来提升知识的提炼质量，实现了对答案的生成和文本排名的优化，最终在 KILT 基准测试中展现出优于同类方法的结果。

May, 2023

检索增强生成：稠密段落检索是否正在检索？

密集路径检索（DPR）是提升大型语言模型（LLM）性能的检索增强生成（RAG）范式中的第一步，本研究通过探测、层激活分析和模型编辑的组合，深入研究 DPR fine-tuning，发现 DPR 训练方式中的去中心化存储及其对检索模型的限制，为密集检索提供了几个可能的方向：（1）将更多知识暴露给 DPR 训练过程以实现更多的去中心化，（2）将事实作为分散表示注入，（3）在检索过程中建模和融入知识的不确定性，以及（4）将内部模型知识直接映射到知识库。

Feb, 2024

生成式检索在百万篇章上的可扩展性？

本文对生成式检索技术进行了第一次经验研究，通过使用合成查询作为文档表示进行索引，以及调整内部架构，探索了在不同语料库规模下扩展生成式检索的几个关键点，发现在小规模语料库上生成式检索和最先进的双编码器具有竞争力，但在数百万篇章的大规模语料库上实现可扩展性仍然是一个重要的未解决问题。

May, 2023

度量引导下的蒸馏：从度量器到排序器和检索器的知识蒸馏，用于生成式常识推理

该研究提出了一种基于 Metric Distillation Rule 的常识句子生成方法，通过传递重要性知识来使检索预测结果更加一致并提高性能。

Oct, 2022

生成式密集检索：内存可能成为负担

提出了生成检索（GR）和生成稠密检索（GDR）两种机制，通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题，在小规模语料库中实现了较好的检索性能和可扩展性。

Jan, 2024

从匹配到生成：生成式信息检索综述

信息检索系统 (IR) 是用户访问信息的关键工具，也是搜索引擎、问答系统和推荐系统等场景中被广泛应用的工具。本文综述了生成式信息检索 (GenIR) 的最新研究进展，涉及到生成式文档检索 (GR)、可靠响应生成以及 GenIR 系统的评估、挑战和未来前景。

Apr, 2024