ACLJun, 2024

每个答案都重要:用概率测度评估常识

TL;DR大型语言模型在常识任务上展现了令人印象深刻的性能;然而,这些任务通常作为多项选择题提出,使模型能够利用系统偏差。常识也具有概率性,存在多个正确答案。为此,我们提出了一种新的生成任务 - 常识框架补全(CFC),通过多个开放式生成来评估常识。我们还提出了与人类判断强相关的概率评估方法。在我们的数据集上,人类的表现远远超过强大的语言模型基线,表明这种方法既具有挑战性,也是对机器常识有用的评估方法。