仅使用生成进行大型语言模型的校准
评估语言模型预测的可靠性和置信度以及解决其与AI安全需求的关系是一项重要研究领域,本文综述了语言模型置信度估计和校准的方法、技术和挑战,并提出了未来研究的方向。
Nov, 2023
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
大语言模型中的虚假生成和过度自信在预测中引起对其可靠性的担忧, 本文通过引入多语言置信度估计(MlingConf)对大语言模型进行全面调查, 包括多语言问答数据集、置信度估计性能、跨语言置信度估计方法的提出, 实验结果表明该跨语言置信度估计技术能显著提高置信度估计。
Feb, 2024
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
通过探索不同的提示策略对LLM的置信度校准的影响以及如何改进,本文提出了Fact-and-Reflection(FaR)提示法,它通过两个步骤改善LLM的校准,同时大幅降低了预期校准误差,并在更自信的场景中还能引发检索增强来解决更难的情况。
Feb, 2024
针对大型语言模型(LLM),特别是黑盒模型的应用,评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制,即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制,我们提出了一种新的范式,全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式,我们引入了一个两步框架,首先指导LLM反思并提供每个答案的理由,然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合,实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。
Mar, 2024
通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在4个MCQA数据集上对6个RLHF-LM进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标IPR和CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。
Apr, 2024
利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在TriviaQA、SQuAD、CoQA和自然提问等基准数据集上,在估算flan-ul2、llama-13b和mistral-7b的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在AUROC上提高超过10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。
Jun, 2024
本文解决了大型语言模型(LLMs)在提供准确自信度估计时的可靠性问题。研究提出了一种新颖的方法,通过结合LLM的自一致性与标记数据,训练一个辅助模型来预测其回答的正确性,最终实验表明该方法在多个基准数据集上明显优于现有自信度校准方法,并显著提升了模型在域外数据上的泛化能力。
Nov, 2024