理解长文问答的检索增强

Oct, 2023

Understanding Retrieval Augmentation for Long-Form Question Answering

Hung-Ting Chen, Fangyuan Xu, Shane A. Arora, Eunsol Choi

TL;DR通过使用相同的证据文档比较使用不同检索增强模型生成的答案，分析了检索增强对不同语言模型的影响，以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性（如流利度、长度、差异等），重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释，并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响，分析了归因错误的主要原因，为未来的研究提供了方向。

Abstract

We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval docum

retrieval-augmented language models long-form question answering fluency length attribution errors

发现论文，激发创造

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有 16K 上下文窗口通过位置插值在长上下文任务上具有可比性能的 4K 上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的 32K 上下文窗口的 LLaMA2-70B，在 7 个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于 GPT-3.5-turbo-16k 和 Davinci003。它还在生成速度上优于其非检索的 LLaMA2-70B-32k 基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

检索有益还是有害？对语言模型检索增强效果的深入研究

通过研究大型语言模型的自身限制以及外部信息检索的有效性，本研究构建了一个新的问答数据集 WiTQA，以探索实体和关系的组合对于信息检索和知识回忆方面的影响，从而提出了一个基于实体和关系频率的自适应检索系统。

Feb, 2024

检索增强的长文生成中的基础性：一项实证研究

我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现，尽管生成的句子中包含正确的答案，但在 3 个数据集和 4 个模型系列中，存在大量一致性未接地的句子。此外，我们还研究了模型大小、解码策略和指导调优等因素对接地性的影响。结果显示，尽管较大的模型更有效地将输出接地，但仍有相当数量的正确答案受到虚构内容的影响。这项研究为长篇问题回答中的接地性挑战提供了新的见解，并强调了在大型语言模型中采取更鲁棒的机制来减少未接地内容的生成的必要性。

Apr, 2024

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

评估检索增强型大语言模型的归属和流畅度平衡

研究探讨了在知识密集型对话设置中，提示检索证据的 LLMs 的流畅度与归属之间的关系，并提出了改善 LLMs 总体质量的方法。实验结果显示，更大的模型在流畅度和属性方面表现更好，并且使用 top-k 检索可以提高属性，但有损于流畅度。研究提出了一种可使较小模型赶上更大模型并保持 top-k 检索优势的方法。

Feb, 2023

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023