Jul, 2024

用于二元问题回答的校准大型语言模型

TL;DR利用归纳 Venn--Abers 预测器(IVAP)校准二元标签对应的输出标记的概率,我们的实验结果表明 IVAP 方法在各种标签标记选择下始终优于常用的温度缩放方法,能够产生良好校准的概率并保持高的预测质量。