Feb, 2024

多项选择问答中,Softmax 概率(在很大程度上)预测大规模语言模型的正确性

TL;DR大型语言模型在多项选择问答任务中的最大 softmax 概率 (MSP) 与正确答案相比与错误答案相关性强,对问答任务表现优异的模型的 MSP 生成的 AUROC 在 59/60 情况中高于随机概率,并在最佳的六个模型中 AUROC 平均为 60% 到 69%。通过基于初始模型响应的 MSP 有选择地弃权,提出了一种能提高性能的多项选择问答任务。同样,我们使用预修正前 logit 进行了相同的实验,并获得了类似 (但不完全相同) 的结果。