科学领域中基于检索增强语言模型的不确定性量化的实证评估

Nov, 2023

科学领域中基于检索增强语言模型的不确定性量化的实证评估

Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science

Sridevi Wagle, Sai Munikoti, Anurag Acharya, Sara Smith, Sameera Horawalavithana

TL;DR通过在科学任务中综合评估检索增强的语言模型中的不确定性量化，本研究旨在填补检索增强语言模型不确定性量化方面的研究空白，发现检索语料库中包含的科学知识无法解决模型对预测结果过度自信的问题。

Abstract

large language models (LLMs) have shown remarkable achievements in natural language processing tasks, producing high-quality outputs. However, LLMs still exhibit limitations, including the generation of factually incorrect information. In →

large language models safety-critical applications retrieval augmented language models uncertainty quantification scientific knowledge

发现论文，激发创造

RAG 与 RAU: 自然语言处理中检索增强语言模型的综述

大型语言模型与检索增强语言模型结合，提供了一个全面的概述，探讨了它们的范式、演化、分类和应用，以及其中关键组件如检索器、语言模型和增强部分，同时讨论了其在多个任务中的效用和评估方法，以及未来研究的方向。

Apr, 2024

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

LUQ：基于 LLMs 的长文本不确定性量化

大语言模型（LLMs）在各种 NLP 任务中展示了非凡的能力。我们的研究首先强调了目前 UQ 方法在处理长文本生成时的局限性，然后介绍了 Luq，一种专门设计用于长文本的基于采样的 UQ 方法。我们的发现表明，Luq 在与模型的准确性分数相关性方面优于现有的基准方法。通过 Luq 作为 UQ 工具，我们调查了几个流行 LLMs 的响应信心谱行为模式及其与事实性响应的相互作用。我们发现 LLMs 在生成罕见事实的长文本上缺乏信心，而事实准确的模型（如 GPT-4）倾向于拒绝其不确定的问题。为了进一步提高 LLM 响应的事实准确性，我们提出了一种称为 Luq-Ensemble 的方法，该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性，超越了最佳独立 LLM 的表现。

Mar, 2024

在生物医学 NLP 中对检索增强的大型语言模型进行基准测试：应用、稳健性和自我意识

本文通过系统调查研究，评估了检索增强型大型语言模型在 5 个不同的生物医学任务（三元组抽取、链接预测、分类、问题回答和自然语言推理）中的影响，并在医学领域建立了四个不同的测试组，测试了三个代表性的大型语言模型与三个不同的检索器在 9 个数据集上的性能。

May, 2024

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒 LLMs 的自然语言生成的不确定性计量，提出几个置信度 / 不确定度统计度量标准，并发现语义分散的平均值可以作为评估 LLMs 响应质量的可靠指标。

May, 2023

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

通过不确定性量化对 LLMs 进行基准测试

通过整合不确定性量化的新型基准评估方法，本研究发现：准确性较高的大型语言模型可能显示出较低的确定性，较大规模的语言模型可能与较小规模的模型相比具有更大的不确定性，指令微调倾向于增加语言模型的不确定性。这些结果强调了在语言模型评估中整合不确定性的重要性。

Jan, 2024

语义密度：大型语言模型中语义空间的不确定性量化

通过语义密度方法，解决大型语言模型在安全关键场景中的不确定性问题，提高可信度和性能表现。

May, 2024

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

上下文检索增强的语言模型

该论文提出了一种名为 In-Context RALM 的新方法，将基础语料库中的相关文档作为输入前缀添加到语言模型中，实现对外部信息的整合而无需改变模型结构，并证实其在各种场景下的性能提升，从而增加了语言模型的普适性。

Jan, 2023