过度自信是关键：大型语言和视觉 - 语言模型中的口头不确定性评估

ACLMay, 2024

过度自信是关键：大型语言和视觉 - 语言模型中的口头不确定性评估

Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models

Tobias Groot, Matias Valdenegro-Toro

TL;DR该论文评估了语言和视觉 - 语言模型的可靠性，并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明，语言和视觉 - 语言模型都存在较高的校准误差，并且大部分时间都表现出过度自信，说明其对不确定性估计的能力较弱。此外，研究还发展了回归任务的提示方法，并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。

Abstract

language and vision-language models (LLMs/VLMs) have revolutionized the field of AI by their ability to generate human-like text and understand images, but ensuring their reliability is crucial. This paper aims t

language and vision-language models reliability verbalized uncertainty japanese uncertain scenes dataset calibration error

发现论文，激发创造

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

大型语言模型的自然语言解释的不确定性量化

在这项研究中，我们尝试量化大型语言模型（LLM）解释的不确定性。为此，我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”，用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计，而探测不确定性的估计与解释的忠实度相关，较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察，有助于更广泛地探讨基础模型的可靠性。

Nov, 2023

驾驭灰色地带：语言模型中的过度自信和不确定表达

本文探究了语言模型在解释和生成不确定表达时的行为，并发现当模型以确定性的语言输出时，模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。

Feb, 2023

视觉语言模型校准的关键因素的实证研究

本研究探究了视觉语言模型（VLMs）在不同架构、数据集和训练策略下的校准性能，发现温度缩放显著且一致地改善了校准性能，即使在分布转变和标签集改变的情况下，借此实验结果，我们强调了我们对 VLMs 的理解在关键实际场景中的潜在应用和重要性，旨在更可靠、有效地使用 VLMs。

Feb, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

视觉语言模型的开放词汇校准

通过调整温度值，根据预测文本标签与基本类之间的距离，我们提出了一种名为距离感知校准（DAC）的简单有效方法，来解决视觉语言模型中存在的置信度校准问题。在 11 个不同的下游数据集上对 7 种不同的提示学习方法进行的实验验证了 DAC 的有效性，并且不影响推理速度。

Feb, 2024

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

基于大语言模型的概率图模型的语言表达

本文介绍了一种新颖的贝叶斯提示方法，通过使用一个语言大模型（LLMs）中的一个模糊概率图模型（PGM）来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果，有效提升了置信度的引发和文本生成质量，显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。

Jun, 2024

预测下一个单词：人类在此任务中表现出的不确定性及语言模型

语言模型相对于人类生成的文本是否准确地表达语言变异性，以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。

Feb, 2024