Feb, 2024
多项选择问答中,Softmax概率(在很大程度上)预测大规模语言模型的正确性
Softmax Probabilities (Mostly) Predict Large Language Model Correctness
on Multiple-Choice Q&A
TL;DR大型语言模型在多项选择问答任务中的最大 softmax 概率(MSP)与正确答案相比与错误答案相关性强,对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率,并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权,提出了一种能提高性能的多项选择问答任务。同样,我们使用预修正前 logit 进行了相同的实验,并获得了类似(但不完全相同)的结果。