通过引发忠实度来校准大型语言模型的置信度

Apr, 2024

通过引发忠实度来校准大型语言模型的置信度

Calibrating the Confidence of Large Language Models by Eliciting Fidelity

Mozhi Zhang, Mianqiu Huang, Rundong Shi, Linsen Guo, Chong Peng...

TL;DR通过将语言模型置信度分解为问题的不确定性和答案的忠诚度，我们提出了一种即插即用的方法来估计语言模型的置信度，并在4个MCQA数据集上对6个RLHF-LM进行实验，展现了良好的校准性能。此外，我们提出了两个新的评估指标IPR和CE，对模型的校准性进行了详细讨论，希望这项工作可以成为一个强有力的基线，并对模型的置信度校准提供一些见解。

Abstract

Large language models optimized with techniques like RLHF have achieved good alignment in being helpful and harmless. However, post-alignment, these language models often exhibit overconfidence, where the express

发现论文，激发创造

语言模型何时知道？关于语言模型在问答任务中的校准问题

本文研究从校准的角度考察自然语言模型(T5、BART、GPT-2)的知识储备，找到可靠性评估，提高其置信度与正确概率的相关性的方法。实验数据表明，校准可以让模型的表现得到提高。

Dec, 2020

通过询问进行校准：从人类反馈 Fine-Tune 的语言模型中获取校准置信度得分的策略

本研究旨在评估从经过强化学习加人工反馈的预先训练语言模型中提取置信度得分的可行方法，通过合理的提示策略和温度缩放，成功降低超过50％的校准误差

May, 2023

语言模型置信度评估与校准调查

评估语言模型预测的可靠性和置信度以及解决其与AI安全需求的关系是一项重要研究领域，本文综述了语言模型置信度估计和校准的方法、技术和挑战，并提出了未来研究的方向。

Nov, 2023

关于大型语言模型和对齐的校准

通过对大型语言模型的可靠性进行置信度校准的系统检查，我们评估了在预训练和对齐训练阶段中不同训练设置（如参数尺度和训练数据）对模型校准的影响，并对生成、真实性和理解等方面进行了全面的评估。

Nov, 2023

从大型语言模型中校正长文生成

通过引入统一的校准框架，以及发展三种度量和两种置信度引导方法，提高大规模语言模型的校准能力，并进行了实验验证，进一步展示了大型模型不一定保证更好的校准，校准性能依赖于度量，自一致性方法在基准数据集上表现优异，通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性，此研究不仅挑战了现有大规模语言模型校准的概念，还提供了改善长文生成可信度的实用方法。

Feb, 2024

用样本一致性校准大型语言模型

通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估，结果表明基于一致性的校准方法优于现有的事后方法，并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。

Feb, 2024

仅使用生成进行大型语言模型的校准

利用APRICOT方法，通过模型的文本输入和输出，设置置信度目标并训练附加模型，从而有效地进行大语言模型的置信度校准。该方法不仅概念简单，而且不需要访问目标模型的其他信息，不会干扰语言生成，并且在封闭型问答中以检测错误答案方面具有竞争性的校准误差表现。

Mar, 2024

大型语言模型的置信度估计：基于多个答案反思之前三思

针对大型语言模型（LLM），特别是黑盒模型的应用，评估输出可信度的置信度估计是关键。现有的LLM置信度估计通常因LLM对生成的错误答案过于自信而缺乏校准。现有方法解决过度自信问题的能力受到一个重要限制，即它们仅考虑LLM生成的一个答案的置信度。为了解决这个限制，我们提出了一种新的范式，全面评估多个候选答案的可信度以减轻对错误答案的过度自信。基于这个范式，我们引入了一个两步框架，首先指导LLM反思并提供每个答案的理由，然后汇集这些理由进行全面的置信度估计。这个框架可以与现有的置信度估计方法结合，实现更好的校准。对三个任务的六个数据集的实验证明了所提框架的合理性和有效性。

Mar, 2024

通过基于激活的置信度校准和引导解码增强语言模型的真实性

在本文中，我们首先提出一种基于激活的校准方法 ActCab，它在语言模型的最后一层激活上训练一个线性层，能更好地捕捉知识的表征。在 ActCab 的基础上，我们进一步提出了一种以置信度为指导的解码策略 CoDec，以从语言模型中得到置信度高的真实答案。通过在五个热门问答基准上进行评估，ActCab 在校准性能方面优于所有竞争基准，例如平均期望校准误差减少了最高39%。进一步对 CoDec 进行的实验证明，在挑战性问答数据集（如 TruthfulQA）上提升了几个语言模型的真实性，突显了置信度信号在增强真实性方面的价值。

Jun, 2024

基于图的自信度校准方法用于大型语言模型

本文解决了大型语言模型（LLMs）在提供准确自信度估计时的可靠性问题。研究提出了一种新颖的方法，通过结合LLM的自一致性与标记数据，训练一个辅助模型来预测其回答的正确性，最终实验表明该方法在多个基准数据集上明显优于现有自信度校准方法，并显著提升了模型在域外数据上的泛化能力。

Nov, 2024