Jun, 2024

大型语言模型信心估计通过黑盒访问

TL;DR利用黑盒或查询访问大型语言模型,通过工程化新特征并训练一个可解释的逻辑回归模型,我们提出了一个简单且可扩展的框架来估算模型响应的置信度。我们的实证研究表明,我们的简单框架在 TriviaQA、SQuAD、CoQA 和自然提问等基准数据集上,在估算 flan-ul2、llama-13b 和 mistral-7b 的置信度时,不仅稳定地优于现有的黑盒置信度估算方法,有时甚至在 AUROC 上提高超过 10%。此外,我们的可解释方法揭示了预测置信度的特征,使得我们为一个语言模型构建的置信度模型在给定数据集上能够泛化到其他语言模型。