语言模型置信度评估与校准调查
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧,本文通过引入多语言置信度估计 (MlingConf) 对大语言模型进行全面调查,包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出,实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
Feb, 2024
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用指南。
Feb, 2024
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
Nov, 2023
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在 4 个 MCQA 数据集上对 6 个 RLHF-LM 进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标 IPR 和 CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
为解决现实场景下对训练样本的有效利用,提出了一种训练算法 LM-TOAST,可以在保持原任务性能的同时,有效利用训练数据使预训练语言模型具有合理的置信度估计。
Jul, 2023
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的 LLM 置信度估计通常因 LLM 对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑 LLM 生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导 LLM 反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
通过使用标记的数据集,本文研究了针对大型语言模型(LLMs)的不确定性估计和校准问题,提出了一个监督学习方法来估计 LLMs 响应的不确定性,并展示了利用隐藏激活对不同任务进行增强不确定性估计的好处和在超出分布范围的情况下的鲁棒性,同时区分了不确定性估计任务和不确定性校准任务,并表明更好的不确定性估计模式会导致更好的校准性能。
Apr, 2024