RAR-b: 推理作为检索的基准

Apr, 2024

RAR-b: Reasoning as Retrieval Benchmark

Chenghao Xiao, G Thomas Hudson, Noura Al Moubayed

TL;DR通过将推理任务转换为检索任务，我们发现，即使没有针对推理级别的语言理解进行专门训练，目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任，特别是在推理密集型任务中。然而，最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力，突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易，我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准（RAR-b），用于评估检索模型中存储的推理能力。

Abstract

Semantic textual similartiy (STS) and information retrieval tasks (IR) tasks have been the two major avenues to record the progress of embedding models in the past few years. Under the emerging Retrieval-augmente

semantic textual similarity information retrieval tasks embedding models retriever models reasoning abilities

发现论文，激发创造

Retriever-Augmented 语言模型能进行推理吗？Retriever 和语言模型之间的责任博弈

该论文研究了不同的检索增强语言模型，如 REALM、kNN-LM、FiD、ATLAS 和 Flan-T5，分析了这些模型在不同任务的文档推理中的优缺点，了解了这些模型在推理失误的情况下，检索器模块以及语言模型是如何根源于推理失误的。

Dec, 2022

检索遇见推理：即使高中教科书知识也有益于多模态推理

通过引入一种名为 RMR 的新型多模式 RAG 框架，本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力，并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能，凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。

May, 2024

检索重构：大规模语言模型推理

本文提出了一种名为 'rethinking with retrieval' (RR) 的后置处理方法，借助 'chain-of-thought' (CoT) 提示中的分解推理步骤检索相关的外部知识，从而改善大语言模型在常识推理、时间推理和表格推理等方面的性能。

Dec, 2022

弥合检索模型与语言模型之间的偏好差距

我们提出了一个新的桥接模型，并验证了 RAG 中检索器的排序和选择假设，并提出了一个将监督学习和强化学习连接起来的培训框架，在问答和个性化生成任务中证明了我们方法的有效性。

Jan, 2024

检索增强通识推理：一种统一方法

本文提出了一种统一的基于检索增强的通识推理框架（RACo），包括一个新构建的包含 2000 万个文档的通识语料库和训练通识检索器的新策略。对四个不同的通识推理任务进行的广泛评估结果表明，我们提出的 RACo 可以显著优于其他知识增强方法的竞争者，在 CommonGen 和 CREAK 排行榜上取得了新的 SoTA 性能。

Oct, 2022

MARS：用多任务评估数据集评估语言模型的形而上学推理能力

为了使大型语言模型（LLMs）能够成为具有可推广的推理能力的有意识的代理人，关键是它们具备理解由环境因素或其他代理人的行动触发的分布情况变化（转换）的推理能力。我们提出了一种新颖的推理形式，称为 MetAphysical ReaSoning，它将分布变化的推理视为一个三步骤的判别过程，并引入了首个基准测试 MARS 来评估 LLMs 在推理行动变化引起的可能性、由变化行动引起的状态以及由行动变化驱动的情境转换方面的能力。深入评估显示，即使对于最先进的 LLMs 和经过微调的 LMs 而言，该过程中的所有三个任务都带来了重大挑战。进一步的分析揭示了 LLMs 表现不佳的潜在原因，并证明了在大规模概念分类法中预训练 LLMs 可以潜在地增强其形而上学推理能力。我们的数据和模型可以在此 https URL 上公开访问。

Jun, 2024

CodeRAG-Bench：检索能增强代码生成吗？

研究发现传统的语言模型在生成代码方面有一定困难，通过提供外部上下文信息如库文档可以改善代码生成效果。通过系统性的大规模分析，发现在何种场景下使用检索增强生成模型能够对代码生成产生帮助，并且存在改进的空间。通过创建了一个综合评估基准，CodeRAG-Bench，涵盖了基本编程、开放域和代码库级别的代码生成任务，实现从五个来源中检索上下文，结果显示在不同设置中通过检索高质量上下文能够提升最终代码生成效果，同时也揭示了当前检索器在词汇重叠有限的情况下仍然难以获取有用的上下文，并且生成器在上下文长度有限或者无法整合额外上下文的能力上存在不足。希望 CodeRAG-Bench 能够成为有效的测试平台，促进进一步开发针对代码导向的检索增强生成方法。

Jun, 2024

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

利用理由生成和密集检索使用较小的语言模型回答未见过的问题

在提供足够解释性上下文的情况下，较小的语言模型在挑战性的问答任务中表现出强大的推理能力，而问题在训练中是未见过的。我们评估了两种进一步改进这一设置的方法，具体为使用理由排名模型对生成的合理和真实合理性进行评分并使用得分来从知识源中生成组合上下文，以及通过训练较小的推理模型来利用长文本序列中的相关信息。普遍发现，两种方法都有效，但 RATD 方法更容易应用并在我们关注的未见设置中产生最佳结果。

Aug, 2023