Causal-CoG: 基于因果效应的上下文生成对多模态语言模型的提升

Dec, 2023

Causal-CoG: 基于因果效应的上下文生成对多模态语言模型的提升

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models

Shitian Zhao, Zhuowan Li, Yadong Lu, Alan Yuille, Yan Wang

TL;DR我们提出了一种从上下文信息的角度解决多模态语言模型在视觉问答任务中难以提供准确和精确回答的挑战的方法：因果上下文生成策略（Causal-CoG）。我们通过提示多模态语言模型生成上下文，即图像的文本描述，并利用生成的上下文进行问题回答，同时从因果关系的角度研究上下文在视觉问答中的优势，引入因果过滤来选择上下文信息对于有帮助的样本。通过在 10 个多模态基准测试上进行广泛实验，与直接解码相比，Causal-CoG 的有效性得到证明，例如在 POPE 测试上提高了 6.30%，在 Vizwiz 测试上提高了 13.69%，在 VQAv2 测试上提高了 6.43%，超过了现有方法。我们希望 Causal-CoG 能够激发对多模态模型中上下文知识的探索，并作为多模态语言模型解码的即插即用策略。

Abstract

While multi-modal language models (MLMs) demonstrate impressive multimodal ability, they still struggle on providing factual and precise responses for tasks like visual question answering (VQA). In this paper, we

multi-modal language models visual question answering causal context generation contextual information causality filtering

发现论文，激发创造

透过两层认知的因果推理，提高视觉问答中的泛化能力

利用认知路径的 VQA（CopVQA）通过强调因果推理因素来改善多模态预测，从而支持 VQA 中的概括推理。

Oct, 2023

实现统一的多模态推理框架

利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Dec, 2023

CoSe-Co: 文本条件生成通用常识上下文

提出了一种基于符号知识图谱的预训练语言模型生成任务相关信息的 CommonSense Contextualizer (CoSe-Co) 模型，该模型结合句子作为输入文本的上下文信息，以构建一种新的数据集用于训练 CoSe-Co 模型，并在多项选择 QA 以及常识推理任务中展现出显著提高的性能

Jun, 2022

利用语言偏见学习内容和上下文的视觉问答

通过建立基于内容和上下文的 CCB 模型，可以减少语言偏差，同时提高 Visual Question Answering (VQA) 模型的学习能力。

Dec, 2020

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

May, 2023

跨模态问答中因果感知的视觉场景发现

本文提出了一个名为 CMQR 的事件级视觉问答推理框架，旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明，CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。

Apr, 2023

CoHS-CQG：面向对话问答生成的上下文和历史选择

本研究提出了一种名为 CoHS-CQG 的两阶段交谈问答生成框架，其中采用 CoHS 模块来缩短输入的上下文和历史，以优化对话对齐属性。该模型在 CoQA 的答案感知和答案不感知情况下均取得了最先进的性能。

Sep, 2022

语言模型是零 - shot 视频问答的因果知识提取器

提出了一种从语言模型中提取因果知识的框架 CaKE-LM，用于解决视频因果问答问题（CVidQA），并在 NExT-QA 和 Causal-VidQA 数据集上取得了显著的优势。

Apr, 2023

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

事件级别视觉问答的跨模态因果关系推理

本文提出了一种名为 CMCIR 的事件级别视觉问答框架，以实现稳健的因果感知视觉 - 语言问答，其利用因果干预方法发现视觉和语言两种模态的真实因果结构，并成功地在四个事件级别数据集上验证了其优越性。

Jul, 2022