Jun, 2024

全局完善:大型语言模型上的标记级校准度量

TL;DR深度神经网络和大型语言模型在提供准确的不确定性估计方面面临挑战,因此提出一种新的校准概念——完全校准,并引入其相应的度量指标Full-ECE,用于评估预测概率分布的整体校准性。