如果电视关闭了会怎么样？研究多模态语言模型的反事实推理能力

ICCVOct, 2023

如果电视关闭了会怎么样？研究多模态语言模型的反事实推理能力

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models

Letian Zhang, Xiaotong Zhai, Zhongkai Zhao, Xin Wen, Yongshuo Zong...

TL;DR我们聚焦于多模态大型语言模型的反事实推理能力进行基准测试，并通过新收集的测试数据集评估了最新的视觉语言模型和代码生成 LLMs 的能力，发现目前存在较大的发展空间。

Abstract

counterfactual reasoning ability is one of the core abilities of human intelligence. This reasoning process involves the processing of alternatives to observed states or past events, and this process can improve our ability for planning and decision-making. In this work, we focus on

counterfactual reasoning multi-modal large language models benchmarking vision language models code generation llms

发现论文，激发创造

眼见不一定全是实情：多模态大语言模型因果推理能力的基准测试

基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力，我们提出了一个新的 CFMM（Counterfactual MultiModal）基准测试，以系统评估 MLLMs 的反事实推理能力，发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提，因此导致了不准确的回答，同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间，我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。

Apr, 2024

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

现实生活视频中回答反事实问题的数据集：ACQUIRED

多模态反事实推理是人工智能系统中重要而具有挑战性的能力，为了克服数据集的限制，研究人员开发了 ACQUIRED 数据集，涵盖了一系列事件类型，综合了物理、社会和时间三个推理维度，可以全面评估模型的反事实能力。与最先进的语言模型和多模态模型相比，实验结果显示存在着显著的性能差距，这表明多模态反事实推理仍然是一个开放挑战，并且 ACQUIRED 是一个全面可靠的基准，可激发未来该方向的研究。

Nov, 2023

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于 “反事实” 任务变体的评估框架，在一系列 11 项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

基于知识的反事实查询在视觉问答中的应用

本文通过利用结构化知识库进行确定性、最优和可控的词级替换，以探究 VQA 模型行为的解释和鲁棒性，并从反事实的回答中提取局部和全局解释，发现可能的偏见和影响模型的性能的预期和意外模式，揭示了模型决策过程中的潜在偏见。

Mar, 2023

利用反事实任务评估大型语言模型的类比推理能力

研究表明，尽管大型语言模型在类比推理方面表现出色，但它们缺乏人类类比能力的鲁棒性和普遍性。

Feb, 2024

反事实型视觉问答：以因果关系审视语言偏见

本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见，可以从整体上减少语言上对回答结果的直接影响，实验结果表明，该框架可以适用于各种 VQA 问答模型，在均衡的 VQA v2 数据集上表现稳定，同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。

Jun, 2020

运用反事实推论改善道德推理 —— 思想实验

本文提出了一种名为 Thought Experiments 的新提示框架，通过反事实让语言模型学习更好的道德推理。实验结果表明，使用这个提示框架可以消除 Moral Scenarios 任务的错误率，并且少量的人类监督可以显著提高任务的准确性。

Jun, 2023