零样本信息检索的转介增强
基于大型语言模型的检索模型和嵌入式检索模型的结合,对零样本检索问题,即无目标领域标记数据的情况下,综合了生成增强检索和检索增强生成两种范式,并通过新颖的 GAR-meets-RAG 循环公式在零样本环境中迭代改进检索和重写阶段,实现了对系统召回率的提升和最终精准度的提高。
Oct, 2023
以通用的文本检索插件为基础,通过增强适应性的文本检索器 (AAR),为各种语言模型 (large target LMs ranging from 250M Flan-T5 to 175B InstructGPT) 提供外部知识,从而显着提高零样本推理的泛化能力。
May, 2023
CLIP 和 Multimodal Large Language Models(MLLMs)在识别广泛的候选人方面具有优势,RAR 结合了两种方法的优点,并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力,该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。
Mar, 2024
本文介绍了一种不需要标注的远程监督方法,可用于训练自回归召回器,以在零样本环境中获得竞争性召回率和精确率。此外,通过针对特定任务的监督微调,展示了利用少于 1/4 注释数据的情况下,基于 Wikipedia 的事实验证任务的自回归检索性能可以接近甚至超过全监督。这指出数据有效的自回归检索存在着可行的方向。
Nov, 2022
我们提出了一种基于自回归公式的检索和重新排序方法,该方法用自然逻辑为基础,使用证明系统动态终止检索过程,同时使用比竞争系统少 5 到 10 倍的记忆,对 FEVER、HoVer 和 FEVEROUS-S 等数据集具有与当前最先进方法相当的性能。
Dec, 2022
通过详细和批判性地分析信息检索组件对检索辅助生成系统的影响,本研究揭示了特定类型的文档对于有效的检索辅助生成提示公式所需的特征,发现包括不相关的文档能出乎意料地提高准确性超过 30%。这些结果强调了需要开发专门策略来将检索与语言生成模型相结合,为未来研究奠定了基础。
Jan, 2024
本文提出了一种新的增强型 RAG 框架 R^2AG,通过将检索信息整合到检索增强型生成模型中,从而填补了大语言模型(LLMs)和检索器之间的语义鸿沟。
Jun, 2024
本文的研究重点是探索使用信息检索作为预训练语言模型的增强,通过将信息检索与 GPT 2.0 相结合,可以实现 Gigaword 语料库中的困惑度降低 15%,同时还验证了该增强技术在事件共参考任务上的有效性。
Jul, 2020
本研究使用商业网络搜索引擎和 Wikipedia 检索高质量信息,探究如何增强基于 T5 的重新排名器,并以实证方式展示如何显着改进 T5 基准下的重新排名器在域内和跨领域重新排名任务中的有效性。
Oct, 2022