当前估计器的可靠性和稳健性: 对LLMs的事实置信度

Jun, 2024

当前估计器的可靠性和稳健性: 对LLMs的事实置信度

Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators

Matéo Mahaut, Laura Aina, Paula Czarnowska, Momchil Hardalov, Thomas Müller...

TL;DR大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Abstract

large language models (LLMs) tend to be unreliable in the factuality of their answers. To address this problem, NLP researchers have proposed a range of techniques to estimate LLM's confidence over facts. However

发现论文，激发创造

生成有信心：针对黑盒大型语言模型的不确定性量化

该研究探讨了基于黑盒LLMs的自然语言生成的不确定性计量，提出几个置信度/不确定度统计度量标准，并发现语义分散的平均值可以作为评估LLMs响应质量的可靠指标。

May, 2023

LLMs是否能够表达他们的不确定性？LLMs中置信度引出的经验评估

本研究探讨了不需要模型微调或专有信息的自信度引出方法，通过基于词汇、一致性和混合等三种类别的方法的基准评估和评估，揭示了语言模型的自信度过高以及一些方法的优点。

Jun, 2023

评估大型语言模型知识的可靠性

本文提出了一种名为MONITOR的新度量方法，用于直接衡量大型语言模型的事实可靠性，通过计算有效输出与同一模型使用不同类型提示和上下文进行探索所产生的对应输出之间的概率分布距离来评估模型的一致性。实验证明MONITOR对于评估大型语言模型的事实可靠性具有良好的效果，并且计算开销较低。此外，作者还发布了包含210,158个提示的FKTC测试集，以促进相关研究的开展。

Oct, 2023

大型语言模型是否可靠的评判者？一个关于LLM事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

大型语言模型的多语言置信度评估全面研究

大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧, 本文通过引入多语言置信度估计(MlingConf)对大语言模型进行全面调查, 包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出, 实验结果表明该跨语言置信度估计技术能显著提高置信度估计。

Feb, 2024

大型语言模型的置信度估计：基于多个答案反思之前三思

针对大型语言模型（LLM），特别是黑盒模型的应用，评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制，即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制，我们提出了一种新的范式，全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式，我们引入了一个两步框架，首先指导LLM反思并提供每个答案的理由，然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合，实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。

Mar, 2024

LUQ：基于LLMs的长文本不确定性量化

大语言模型（LLMs）在各种NLP任务中展示了非凡的能力。我们的研究首先强调了目前UQ方法在处理长文本生成时的局限性，然后介绍了Luq，一种专门设计用于长文本的基于采样的UQ方法。我们的发现表明，Luq在与模型的准确性分数相关性方面优于现有的基准方法。通过Luq作为UQ工具，我们调查了几个流行LLMs的响应信心谱行为模式及其与事实性响应的相互作用。我们发现LLMs在生成罕见事实的长文本上缺乏信心，而事实准确的模型（如GPT-4）倾向于拒绝其不确定的问题。为了进一步提高LLM响应的事实准确性，我们提出了一种称为Luq-Ensemble的方法，该方法对来自多个模型的响应进行集成并选择不确定性最小的响应。这种集成方法极大地提高了响应的事实性，超越了最佳独立LLM的表现。

Mar, 2024

大型语言模型在其概率或口头信心中的诚实性比较

本研究解决了大型语言模型（LLMs）在知识边界感知方面的不足，重点分析了模型在生成的概率与口头信心之间的差异和联系。通过比较，发现概率感知通常比口头感知更准确，但需要领域内的验证集以调整信心阈值，且二者在处理不常见问题时表现更佳。这一发现有助于提升模型在回答超出其知识范围问题时的可靠性。

Aug, 2024

通过错误信息理解大型语言模型中的知识漂移

本研究解决了大型语言模型在接触错误信息时所产生的知识漂移问题。通过对模型在问答场景中对虚假信息反应的深入分析，提出了一种结合熵、困惑度和标记概率度量的方法。研究发现，模型在接触错误信息时，其不确定性可能增加高达56.6%，重复接触同一错误信息又可能导致不确定性降低，影响模型的原始知识，推动了对大型语言模型可应用性的可靠性发展。

Sep, 2024