ACLMay, 2024

过度自信是关键:大型语言和视觉 - 语言模型中的口头不确定性评估

TL;DR该论文评估了语言和视觉 - 语言模型的可靠性,并提出了新的日本不确定场景数据集以及测量校准误差的方法。结果表明,语言和视觉 - 语言模型都存在较高的校准误差,并且大部分时间都表现出过度自信,说明其对不确定性估计的能力较弱。此外,研究还发展了回归任务的提示方法,并证明视觉 - 语言模型在生成均值 / 标准差和 95% 置信区间时存在校准不良。