如果电视关闭了会怎么样?研究多模态语言模型的反事实推理能力
基于现有多模态大型语言模型 (MLLMs) 在视觉问答评测方面的认知和推理能力,我们提出了一个新的 CFMM(Counterfactual MultiModal)基准测试,以系统评估 MLLMs 的反事实推理能力,发现现有 MLLMs 往往更加倾向于相信所见而忽视问题中提到的反事实前提,因此导致了不准确的回答,同时也表明现有 MLLMs 在逼近人类智能方面仍有较大提升空间,我们还探索了通过在未来提升 MLLMs 在 CFMM 上的表现来发展具备先进智能的 MLLMs 的潜在途径。
Apr, 2024
通过调查五种预训练语言模型在特殊条件下进行的逆向推理,发现这种逆向推理主要受到基于单词关联的影响,只有 GPT-3 能够展现对语言细微差别的敏感性。
May, 2023
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。
Jun, 2021
本文通过使用反事实条件句,利用心理语言学实验和更大规模的数据集,对比了多种流行的预训练语言模型中的反事实预测,并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时,只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。
Dec, 2022
多模态反事实推理是人工智能系统中重要而具有挑战性的能力,为了克服数据集的限制,研究人员开发了 ACQUIRED 数据集,涵盖了一系列事件类型,综合了物理、社会和时间三个推理维度,可以全面评估模型的反事实能力。与最先进的语言模型和多模态模型相比,实验结果显示存在着显著的性能差距,这表明多模态反事实推理仍然是一个开放挑战,并且 ACQUIRED 是一个全面可靠的基准,可激发未来该方向的研究。
Nov, 2023
该研究旨在研究当前语言模型的抽象推理能力,提出一种基于 “反事实” 任务变体的评估框架,在一系列 11 项任务中观察到对反事实变体的表现,但表明当前语言模型的表现往往会严重且一致地降级,提示需要更加仔细地解释语言模型的表现。
Jul, 2023
本文通过利用结构化知识库进行确定性、最优和可控的词级替换,以探究 VQA 模型行为的解释和鲁棒性,并从反事实的回答中提取局部和全局解释,发现可能的偏见和影响模型的性能的预期和意外模式,揭示了模型决策过程中的潜在偏见。
Mar, 2023
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。
Jun, 2020
本文提出了一种名为 Thought Experiments 的新提示框架,通过反事实让语言模型学习更好的道德推理。实验结果表明,使用这个提示框架可以消除 Moral Scenarios 任务的错误率,并且少量的人类监督可以显著提高任务的准确性。
Jun, 2023