Jul, 2024

将语言模型评估为风险评分

TL;DR本研究解决了现有问答基准在评估语言模型量化结果不确定性方面的不足。我们引入了folktexts软件包,利用大型语言模型系统地生成风险评分,并对它们在基准预测任务中的表现进行评估。研究发现,零-shot风险评分具有较高的预测信号,但广泛存在错配的校准问题,表明基础模型过高估计结果不确定性,而经过指令调优的模型则低估不确定性并产生过于自信的风险评分。