规模、检索增强与形式对语言模型事实一致性的影响

EMNLPNov, 2023

规模、检索增强与形式对语言模型事实一致性的影响

The Effect of Scaling, Retrieval Augmentation and Form on the Factual Consistency of Language Models

Lovisa Hagström, Denitsa Saynova, Tobias Norlund, Moa Johansson, Richard Johansson

TL;DR大型语言模型（LLMs）在提供事实知识方面具有自然的界面，但它们的有用性受到其倾向于给出不一致答案的限制。本文识别不一致性的潜在原因，并评估两种缓解策略的效果：扩展和使用检索语料库增强 LM。我们在 LLaMA 和 Atlas 模型上的结果表明，这两种策略都能减少不一致性，而使用检索增强方法更加高效。我们进一步考虑和分离了 Atlas 的不同组件对一致性的贡献。对所有评估的 LMs 来说，我们发现语法形式和其他评估任务的产物会影响一致性。总体而言，我们的结果更好地理解了影响语言模型事实一致性的因素。

Abstract

large language models (LLMs) make natural interfaces to factual knowledge, but their usefulness is limited by their tendency to deliver inconsistent answers to semantically equivalent questions. For example, a model might predict both "Anne Redpath passed away in Edinburgh." and "Anne

large language models inconsistency up-scaling augmentation factual consistency

发现论文，激发创造

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

大型语言模型中的事实性调查：知识、检索与领域特定性

该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。

Oct, 2023

理解长文问答的检索增强

通过使用相同的证据文档比较使用不同检索增强模型生成的答案，分析了检索增强对不同语言模型的影响，以及检索文档集的质量对相同语言模型生成的答案的影响。研究了生成答案的各种属性（如流利度、长度、差异等），重点是将生成的长篇答案与上下文证据文档进行归因。我们收集了对答案归因的人工注释，并评估了自动判断归因的方法。研究结果揭示了检索增强对基于语言模型的长篇、知识丰富文本生成的影响，分析了归因错误的主要原因，为未来的研究提供了方向。

Oct, 2023

评估检索增强型大语言模型的归属和流畅度平衡

研究探讨了在知识密集型对话设置中，提示检索证据的 LLMs 的流畅度与归属之间的关系，并提出了改善 LLMs 总体质量的方法。实验结果显示，更大的模型在流畅度和属性方面表现更好，并且使用 top-k 检索可以提高属性，但有损于流畅度。研究提出了一种可使较小模型赶上更大模型并保持 top-k 检索优势的方法。

Feb, 2023

通过语义一致性预测大型语言模型的问答性能

我们通过手动创建一个高质量的事实问答近义词语料库，并与先前工作中的其他相关度量标准相结合，以评估现代大型语言模型（LLMs）的语义一致性，以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估，我们展示了令人鼓舞的结果，显著超越了基线水平。

Nov, 2023

利用检索增强探究大语言模型的事实知识边界

大规模语言模型 (LLMs) 在解决知识密集型任务方面展示出了令人印象深刻的能力。本研究通过分析 LLMs 的事实知识边界以及检索增强对其开放领域问题回答能力的影响，揭示了 LLMs 在自信度、准确度和判断能力方面的特征。研究发现检索增强是提升 LLMs 对知识边界感知的有效方法，并且 LLMs 在生成答案时倾向于依赖检索结果，但结果质量对其依赖程度有显著影响。

Jul, 2023

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

基于大型语言模型的事实对话摘要

通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性，我们在对话摘要中取得了更好的事实一致性，同时保持了连贯性、流畅性和相关性。

Jun, 2024

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023