Apr, 2024

通过引发忠实度来校准大型语言模型的置信度

TL;DR通过将语言模型置信度分解为问题的不确定性和答案的忠诚度,我们提出了一种即插即用的方法来估计语言模型的置信度,并在 4 个 MCQA 数据集上对 6 个 RLHF-LM 进行实验,展现了良好的校准性能。此外,我们提出了两个新的评估指标 IPR 和 CE,对模型的校准性进行了详细讨论,希望这项工作可以成为一个强有力的基线,并对模型的置信度校准提供一些见解。