EMNLPNov, 2023

逻辑阅读理解中临时推理理解的评估

TL;DR为了准确评估语言模型在逻辑阅读理解方面的能力,我们提供了一个用于测试关键推理理解的数据集。通过从现有的多项选择逻辑阅读理解数据集中选取问题,我们众包了解释选择或排除答案选项的理由,结果得到了与 943 个主要问题相关联的 3003 个多项选择子问题。对我们的数据集进行的实验表明,最近的大型语言模型(如 InstructGPT)在回答多项选择子问题时面临困难,即使它们能够正确回答主要问题。我们发现,该模型在回答针对主要问题的错误选项而编写的子问题时表现特别糟糕,这意味着该模型对解释为什么应该排除错误选项的能力有限。这些结果表明,我们的数据集鼓励进一步研究语言模型的关键推理能力,重点关注相关的备选项排除过程。