Jun, 2024

多阶段逻辑推理能力评估的目标:Multi-LogiEval

TL;DR为了评估大型语言模型在人类式的多步逻辑推理方面的能力,我们提出了一种综合评估数据集Multi-LogiEval,该数据集囊括了多步逻辑推理、各种推理规则和深度,并覆盖了命题逻辑、一阶逻辑和非单调逻辑等三种逻辑类型。实验结果表明,随着推理步骤/深度的增加,语言模型的性能显著下降(在深度为1时平均准确率约为68%,深度为5时约为43%)。我们相信Multi-LogiEval将有助于以后评估和提升大型语言模型的逻辑推理能力。