Jul, 2024

MalAlgoQA:评估反事实推理能力的教育方法

TL;DR该论文介绍了 MalAlgoQA,这是一个用于评估大型语言模型(LLMs)通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题,每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释,称为 “malgorithms”,强调导致错误答案的错误推理步骤,并提供有关错误思维过程的有价值的见解。我们还提出了 Malgorithm 识别任务,用于根据给定的错误答案选择来评估 LLMs 识别相应 malgorithm 的能力。为了评估模型性能,我们引入了两个指标:正确答案解释的算法识别准确率(AIA)和错误答案解释的 malgorithm 识别准确率(MIA)。该任务具有挑战性,因为最先进的 LLMs 在 MIA 方面表现出较大的下降。此外,我们发现,“思维链提示” 技术不仅无法始终提高 MIA,而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的 LLMs 的开发中具有重要意义,以提高其反事实推理能力,特别是在理解和纠正学生错误观念方面。