揭示视频问答模型中联合多模态理解的幻觉

Jun, 2023

揭示视频问答模型中联合多模态理解的幻觉

Revealing the Illusion of Joint Multimodal Understanding in VideoQA Models

Ishaan Singh Rawal, Shantanu Jaiswal, Basura Fernando, Cheston Tan

TL;DR通过 QUAG 探究 VideoQA Transformer 模型对于多模态结构与动态的理解，提出对于多模态 VideoQA 表示的可靠性检验，CLAVI Benchmark, 通过对反事实情景的测评，发现目前的模型在处理多模态 VideoQA 表示的亚优化方面有待改善。

Abstract

While videoqa transformer models demonstrate competitive performance on standard benchmarks, the reasons behind their success remain unclear. Do these models jointly capture and leverage the rich multimodal structures

videoqa transformer models multimodal structures quag clavi counterfactuals

发现论文，激发创造

MAQA: 一个用于否定多模态问答的基准数据集

该研究旨在评估多模态转换器是否可以执行复杂的推理来识别新概念作为先前学习的概念的否定，研究通过描述一种使用音频集中标注的音乐视频的多模态问答基准测试和一种新型数据生成程序确定了这种方法的有效性。

Jan, 2023

基于大型多模型的弱监督高斯对比定位的视频问答

提出了一种新颖的弱监督框架，用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答，通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻，并利用高斯对比基础模块学习视频的时间结构，将问题关键帧作为正样本作为大型多模态模型的视觉输入，实验证明该框架相比于先前最先进的方法取得了显著的改进。

Jan, 2024

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

跨语言视觉问答

本文提出了 xGQA，一个用于跨语言视觉问答任务的新的多语言评估基准，并使用适配器方法将多模型变换器模型扩展为多语言模型，结果表明简单的跨语言模型转移会导致多语言多模态失配，需要更复杂的方法来进行跨语言视觉和多语言语言建模

Sep, 2021

早期融合和批次规范对 CLEVR 视觉问答中细节的影响

本文研究了在 Visual QA 领域中取得强大性能的初馈聚合模型的复杂性，发现了一些架构上的要素对于其性能的关键作用，其中早期的语言 - 视觉融合是最为有效的，为此我们提出了一种称之为 “多模核” 的简单模块，旨在为多模任务提供基本操作。

Sep, 2018

有选择性地回答视觉问题

近期，大型多模态模型在视觉任务中表现出前所未有的精确性，尤其对于帮助盲人或视障人士提供准确答案至关重要，而模型的校准和不确定性量化对于有选择性地回答问题或请求澄清非常重要。我们对在上下文学习的多模态模型上进行 VQA 校准方法和度量的深入分析，研究了两个回答能力基准测试中的 VQA，结果显示，对于上下文学习来说，视觉模型的可能性得分比其纯文本模型更为校准，尽管基于采样的方法通常更优，但没有明确的赢家。我们提出了 Avg BLEU，这是一种结合了两种模式的采样和可能性方法优点的校准评分。

Jun, 2024

超越基于问题偏见：对多模态快捷学习在视觉问答中的评估

本文介绍了一个用于诊断视觉问答（VQA）模型中快速学习情况的评估方法，并提出了考虑问题和图片的多模态快捷方式问题。通过挖掘诸如词语和视觉元素的共现等规律等方法，首先在流行的 VQA v2 训练集中确定了可能的快速方式，然后引入基于我们的 CounterExamples 子集的 VQA-CounterExamples（VQA-CE）评估协议进行了大规模研究，发现即使是最先进的模型也难以处理这个复杂的问题。

Apr, 2021

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

Mucko: 基于事实的视觉问答的多层交叉模态知识推理

本文提出了一种多模态异构图神经网络来解决基于事实的视觉问答问题，该模型通过逐层的图卷积网络对问题相关证据进行迭代式推理，并在多种数据集上获得了最新的最佳成绩。

Jun, 2020