零样本信息检索的转介增强

May, 2023

Referral Augmentation for Zero-Shot Information Retrieval

Michael Tang, Shunyu Yao, John Yang, Karthik Narasimhan

TL;DR提出 Referral-Augmented Retrieval（RAR），用于零 - shot 信息检索，通过链接到特定文档的其他文档的文本来提供更全面、多视角的文档表示，这种方法与稀疏型和密集型召回器一起使用可以消除模型训练和推理的昂贵成本，并取得了最多 37% 的绝对改进。

Abstract

We propose referral-augmented retrieval (RAR), a simple technique that concatenates document indices with referrals, i.e. text from other documents that cite or link to the given document, to provide significant performance gains for →

referral-augmented retrieval information retrieval text expansion multi-view representation zero-shot

发现论文，激发创造

GAR 与 RAG 范式的零样本信息检索

基于大型语言模型的检索模型和嵌入式检索模型的结合，对零样本检索问题，即无目标领域标记数据的情况下，综合了生成增强检索和检索增强生成两种范式，并通过新颖的 GAR-meets-RAG 循环公式在零样本环境中迭代改进检索和重写阶段，实现了对系统召回率的提升和最终精准度的提高。

Oct, 2023

适应增强的召回器作为通用插件提升语言模型的泛化能力

以通用的文本检索插件为基础，通过增强适应性的文本检索器 (AAR)，为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识，从而显着提高零样本推理的泛化能力。

May, 2023

RAR: 检索与排序增强型 MLLM 用于视觉识别

CLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Mar, 2024

用于事实验证的数据高效自回归文档检索

本文介绍了一种不需要标注的远程监督方法，可用于训练自回归召回器，以在零样本环境中获得竞争性召回率和精确率。此外，通过针对特定任务的监督微调，展示了利用少于 1/4 注释数据的情况下，基于 Wikipedia 的事实验证任务的自回归检索性能可以接近甚至超过全监督。这指出数据有效的自回归检索存在着可行的方向。

Nov, 2022

基于自然语言逻辑的自回归多跳文档检索方法用于事实核查

我们提出了一种基于自回归公式的检索和重新排序方法，该方法用自然逻辑为基础，使用证明系统动态终止检索过程，同时使用比竞争系统少 5 到 10 倍的记忆，对 FEVER、HoVer 和 FEVEROUS-S 等数据集具有与当前最先进方法相当的性能。

Dec, 2022

RAPTOR: 递归抽象处理树形检索

使用递归嵌入、递归摘要等方法的召回增强型语言模型可以在问题回答任务中取得卓越的结果，并在整体文档上具有整体的理解能力。

Jan, 2024

噪声的力量：为 RAG 系统重新定义检索

通过详细和批判性地分析信息检索组件对检索辅助生成系统的影响，本研究揭示了特定类型的文档对于有效的检索辅助生成提示公式所需的特征，发现包括不相关的文档能出乎意料地提高准确性超过 30％。这些结果强调了需要开发专门策略来将检索与语言生成模型相结合，为未来研究奠定了基础。

Jan, 2024

R^2AG: 将检索信息融入检索增强生成

本文提出了一种新的增强型 RAG 框架 R^2AG，通过将检索信息整合到检索增强型生成模型中，从而填补了大语言模型（LLMs）和检索器之间的语义鸿沟。

Jun, 2024

语言模型的即时信息检索增强

本文的研究重点是探索使用信息检索作为预训练语言模型的增强，通过将信息检索与 GPT 2.0 相结合，可以实现 Gigaword 语料库中的困惑度降低 15％，同时还验证了该增强技术在事件共参考任务上的有效性。

Jul, 2020

利用外部资源提升 T5 重排模型检索效果

本研究使用商业网络搜索引擎和 Wikipedia 检索高质量信息，探究如何增强基于 T5 的重新排名器，并以实证方式展示如何显着改进 T5 基准下的重新排名器在域内和跨领域重新排名任务中的有效性。

Oct, 2022