大型语言模型能否以准确的文字表达其内在不确定性？

May, 2024

大型语言模型能否以准确的文字表达其内在不确定性？

Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?

Gal Yona, Roee Aharoni, Mor Geva

TL;DR大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

Abstract

We posit that large language models (LLMs) should be capable of expressing their intrinsic uncertainty in natural language. For example, if the LLM is equally likely to output two contradicting answers to the same question, then its generated response should reflect this uncertainty by

large language models response uncertainty alignment knowledge-intensive question answering trustworthiness

发现论文，激发创造

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

相信还是不相信你的 LLM

我们在大型语言模型中探索不确定性量化，旨在确定查询结果的不确定性何时较大。我们同时考虑认识论不确定性和偶然性不确定性，从中推论出一种信息论度量，可可靠地检测只有认识论不确定性较大的情况，从模型的输出中可以仅通过一些特殊的迭代提示来计算。这种量化可以检测出幻觉，在单答案和多答案响应中均适用。与许多标准的不确定性量化策略（例如，将响应的对数似然度阈值化）不同，无法检测到多答案情况下的幻觉。我们进行了一系列实验证明了我们的公式的优势。此外，我们的研究还揭示了大型语言模型给定输出的概率如何通过迭代提示来放大，这可能具有独立的研究价值。

Jun, 2024

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

用语言模型区分可知与不可知

通过大型语言模型中的线性探针和无监督方法，研究确定性认知不确定性与随机认知不确定性的可行性，为多样化实际场景中模型置信度提供更详细的指标。

Feb, 2024

大型语言模型作为忠实的解释器

介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM，该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数，实验证明 xLLM 可以显著提高生成解释的忠实度。

Feb, 2024

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024

驾驭灰色地带：语言模型中的过度自信和不确定表达

本文探究了语言模型在解释和生成不确定表达时的行为，并发现当模型以确定性的语言输出时，模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。

Feb, 2023

大型语言模型的自然语言解释的不确定性量化

在这项研究中，我们尝试量化大型语言模型（LLM）解释的不确定性。为此，我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”，用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计，而探测不确定性的估计与解释的忠实度相关，较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察，有助于更广泛地探讨基础模型的可靠性。

Nov, 2023