检索增强的长文生成中的基础性：一项实证研究

ACLApr, 2024

检索增强的长文生成中的基础性：一项实证研究

Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study

Alessandro Stolfo

TL;DR我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现，尽管生成的句子中包含正确的答案，但在 3 个数据集和 4 个模型系列中，存在大量一致性未接地的句子。此外，我们还研究了模型大小、解码策略和指导调优等因素对接地性的影响。结果显示，尽管较大的模型更有效地将输出接地，但仍有相当数量的正确答案受到虚构内容的影响。这项研究为长篇问题回答中的接地性挑战提供了新的见解，并强调了在大型语言模型中采取更鲁棒的机制来减少未接地内容的生成的必要性。

Abstract

We present an empirical study of groundedness in long-form question answering (LFQA) by retrieval-augmented large language models (LLMs).

groundedness long-form question answering large language models ungrounded sentences robust mechanisms

发现论文，激发创造

大型语言模型真正地进行了多好的接地？

大型语言模型的可靠性和控制性方面的关键问题是如何通过知识增强模型进行接地，该研究提出了一种严格的接地定义，并引入新的数据集和接地度量标准来评估该定义，通过实验对 13 种不同大小和训练方法的大型语言模型进行研究，以提供改进接地能力的见解。

Nov, 2023

理解长文问答的检索增强

通过使用相同的证据文档比较使用不同检索增强模型生成的答案，分析了检索增强对不同语言模型的影响，以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性（如流利度、长度、差异等），重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释，并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响，分析了归因错误的主要原因，为未来的研究提供了方向。

Oct, 2023

多跳问题回答中的生成先然后建模的检索增强生成

多跳问题回答 (MHQA) 任务对于大型语言模型 (LLMs) 来说是一项重大挑战。我们提出了一个新颖的生成然后固定 (GenGround) 框架，结合 LLMs 的参数化知识和外部文档，以解决多跳问题。通过在检索的文档中确认问题 - 答案对，我们的方法在四个数据集上展示了其优越性。

Jun, 2024

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

定位和检测语言模型基础的瑕疵：使用 Fakepedia

中文摘要：本研究介绍了 Fakepedia，一个反事实数据集，用于评估大型语言模型在参数化知识与上下文信息相冲突时的接地能力。我们测试了各种大型语言模型在 Fakepedia 上的表现，并发现 GPT-4-turbo 更偏好参数化知识，而 Mistral-7B 则最稳定地选择了接地答案。此外，我们对大型语言模型进行因果中介分析，结果表明仅凭计算图的检查即可预测 92.8% 准确度的接地情况，尤其是变压器中的少数 MLP 可以预测非接地行为。我们的结果与现有关于事实回忆机制的发现相结合，提供了大型语言模型中接地和事实回忆机制的相互作用的连贯叙述。

Dec, 2023

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

提高基于大规模语言模型的有效适应性以改善语境理解

这篇论文关注通过一种名为 AGREE 的新框架，综合地改善大型语言模型在真实世界中的应用，以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息，设计了一种迭代的测试时间调整能力来有效实现该框架，并通过提供引用来调整大型语言模型对检索文档中主张的立足。结果表明，基于调整的 AGREE 框架相较于基于提示的方法，生成了更好的基于立足的回答和更准确的引用。

Nov, 2023

大型语言模型是假定的语义基础还是猜测？

现有的大型语言模型在构建共性时，假设存在共同基础，而无需使用对话行为，因此需要进一步研究人机交互中的共性问题。

Nov, 2023

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023