EMNLPOct, 2023

大规模语言模型在歧义下的自一致性

TL;DR在含糊的整数序列填充任务中,我们在 OpenAI 模型套件上进行了一系列行为实验,发现平均一致性介于 67%和 82%之间,远高于模型一致性随机的预测,并随着模型能力的提高而增加。此外,我们发现模型在自我一致性上具有不良标定性,并且通常倾向于在潜在的答案中分配显著的权重。