ACLJun, 2023

用反常识情境评估物理推理能力

TL;DR通过创建 CConS 数据集,我们研究物理常识如何影响语境化尺寸比较任务,并测试多个遮蔽语言模型和生成模型的能力,结果表明大型语言模型可以使用前置词推断大小关系,但他们因其固有的物理常识而无法使用动词,从而做出错误的判断