EMNLPOct, 2023

NEWTON:大型语言模型是否具备物理推理能力?

TL;DR通过评估物理推理技能的新基准数据集 NEWTON,以及针对对象与属性的推理任务,研究发现大型语言模型在场景任务中表现出强大的推理能力,但在对象 - 属性推理方面与人类相比存在欠缺(50%对比 84%),新基准数据集 NEWTON 展示了评估和提升语言模型的潜力,为将其整合到以物理为基础的环境中铺平了道路。