MalAlgoQA：评估反事实推理能力的教育方法

Jul, 2024

MalAlgoQA：评估反事实推理能力的教育方法

MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities

Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk

TL;DR该论文介绍了 MalAlgoQA，这是一个用于评估大型语言模型（LLMs）通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题，每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释，称为 “malgorithms”，强调导致错误答案的错误推理步骤，并提供有关错误思维过程的有价值的见解。我们还提出了 Malgorithm 识别任务，用于根据给定的错误答案选择来评估 LLMs 识别相应 malgorithm 的能力。为了评估模型性能，我们引入了两个指标：正确答案解释的算法识别准确率（AIA）和错误答案解释的 malgorithm 识别准确率（MIA）。该任务具有挑战性，因为最先进的 LLMs 在 MIA 方面表现出较大的下降。此外，我们发现，“思维链提示” 技术不仅无法始终提高 MIA，而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的 LLMs 的开发中具有重要意义，以提高其反事实推理能力，特别是在理解和纠正学生错误观念方面。

Abstract

This paper introduces malalgoqa, a novel dataset designed to evaluate the counterfactual reasoning capabilities of large language models (

malalgoqa counterfactual reasoning large language models algorithm identification accuracy malgorithm identification accuracy

发现论文，激发创造

眼见不一定全是实情：多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力，我们提出了一个新的 CFMM（Counterfactual MultiModal）基准测试，以系统评估 MLLMs 的反事实推理能力，发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提，因此导致了不准确的回答，同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间，我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

Apr, 2024

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

初学者学习者与专家导师：评估具有误解的大型语言模型的数学推理能力

我们提出了一种基于数学误解的大型语言模型（LLM）数学推理能力的新评估方法。我们通过模拟 LLMs 作为初学者和专家导师，旨在识别由于特定误解导致的错误答案，并识别一个错误答案背后的误解。与传统基于 LLMs 的数学评估侧重于正确回答数学问题不同，我们的方法受到教育学习科学原则的启发。我们要求 LLMs 明确地模仿初学者通过基于不完整知识的特定错误方式回答问题，并模仿专家导师识别与问题的错误答案相对应的误解。通过简单的小学数学问题实验，我们发现，尽管 LLMs 可以轻松正确回答这些问题，但它们难以识别：1）与特定不完整知识（误解）相对应的错误答案；2）解释特定错误答案的误解。我们的研究指出了增强 LLMs 数学推理能力的新机会，尤其是在教育应用中开发健壮的学生模拟和专家辅导模型方面。

Oct, 2023

IfQA: 面向反事实前提的开放领域问答数据集

本文介绍了第一个 counterfactual open-domain question-answering（QA）数据集（IfQA），并通过在该数据集上进行实证分析证明了如果就文本假设进行推理和检索是一项具有挑战性的任务。

May, 2023

超越一致性：基于语言信息支持的反事实分析，诊断自动化作文评分方法的合理性对齐

使用大型语言模型辅助对反事实干预的改进方法揭示了自动作文评分方法在评分机制上的不足，并展示了大型语言模型在与评分标准更全面地对齐方面的优势，同时也能识别反事实干预进行反馈，提高了对神经自动作文评分方法的理解，对其他追求模型驱动决策透明性的领域也具有应用潜力。

May, 2024

如果电视关闭了会怎么样？研究多模态语言模型的反事实推理能力

我们聚焦于多模态大型语言模型的反事实推理能力进行基准测试，并通过新收集的测试数据集评估了最新的视觉语言模型和代码生成 LLMs 的能力，发现目前存在较大的发展空间。

Oct, 2023

CLOMO：大型语言模型的反事实逻辑修改

大型语言模型在反事实推理能力方面表现出较强的潜力，但目前仍存在与人类表现之间的差距。

Nov, 2023

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

现实生活视频中回答反事实问题的数据集：ACQUIRED

多模态反事实推理是人工智能系统中重要而具有挑战性的能力，为了克服数据集的限制，研究人员开发了 ACQUIRED 数据集，涵盖了一系列事件类型，综合了物理、社会和时间三个推理维度，可以全面评估模型的反事实能力。与最先进的语言模型和多模态模型相比，实验结果显示存在着显著的性能差距，这表明多模态反事实推理仍然是一个开放挑战，并且 ACQUIRED 是一个全面可靠的基准，可激发未来该方向的研究。

Nov, 2023

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023