基于图的自信度校准方法用于大型语言模型
该研究旨在提出一种更好的置信度校准指标—MacroCE,该指标能更好地捕捉模型给出正确预测时高信心和给出错误预测时低信心的情况,并针对开放领域问答的实际应用,提出了新的校准方法ConsCal,该方法不仅考虑模型的最终预测,还考虑了多个模型检查点的一致性预测,提供了一种全新的校准视角、新的指标以及根据指标提出了更加有效的校准方法。
May, 2022
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
利用APRICOT方法,通过模型的文本输入和输出,设置置信度目标并训练附加模型,从而有效地进行大语言模型的置信度校准。该方法不仅概念简单,而且不需要访问目标模型的其他信息,不会干扰语言生成,并且在封闭型问答中以检测错误答案方面具有竞争性的校准误差表现。
Mar, 2024
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导LLM反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
提出了GraphEval方法使用大规模测试数据集来评估大型语言模型的性能,该方法通过从包含1000万多个事实的大型知识图中检索测试数据集来简化评估过程,并创造了一个判断模型来估计语言模型所给出答案的正确性。实验证明判断模型的事实评估与语言模型的生成输出的正确性密切相关,并且大大降低了评估成本,同时还为后续改进确保语言模型输出的事实性提供了有价值的见解。
Apr, 2024
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在TriviaQA、SQuAD、CoQA和自然提问等基准数据集上,在估算flan-ul2、llama-13b和mistral-7b的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在AUROC上提高超过10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
大型语言模型的事实准确性不可靠,为了解决这个问题,自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而,由于缺乏系统性的比较,不清楚不同方法之间的差异。为了填补这一空白,我们提出了一个调查和实证比较事实置信度估计器的实验框架,涵盖了事实验证和问题回答。我们的实验结果表明,训练的隐藏状态探针提供了最可靠的置信度估计,但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现,大型语言模型的置信度在语义上等效的输入中往往不稳定,这表明改进模型参数化知识的稳定性有很大的改进空间。
Jun, 2024