基于大型多模型的弱监督高斯对比定位的视频问答

Jan, 2024

基于大型多模型的弱监督高斯对比定位的视频问答

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering

Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge

TL;DR提出了一种新颖的弱监督框架，用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答，通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻，并利用高斯对比基础模块学习视频的时间结构，将问题关键帧作为正样本作为大型多模态模型的视觉输入，实验证明该框架相比于先前最先进的方法取得了显著的改进。

Abstract

video question answering (VideoQA) aims to answer natural language questions based on the information observed in videos. Despite the recent success of large multimodal models (LMMs) in image-language understandi

video question answering large multimodal models weakly supervised framework gaussian-based contrastive grounding videoqa benchmarks

发现论文，激发创造

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

视频问答的不变基础

使用一种新的学习框架，稳定视频问答模型中的非关键信息，保留关键信息，提高模型推理能力。

Jun, 2022

利用多任务学习获取多模态视频问答的额外监督

该研究提出通过多任务学习获得额外监督的方法，解决多模态视频问答建立大规模数据集昂贵且现有基准数据集较小的挑战。该方法由多模态视频问答网络、时间检索网络和模态对齐网络组成，通过层次共享中间层同时解决相关的辅助任务提供额外的协同监督，并提出多任务比率调度的方法进行训练。实验结果表明，该方法在公开数据集 TVQA 上实现了最先进的效果。

May, 2019

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

自监督预训练和对比表征学习在多项选择视频 QA 中的应用

本文介绍了一种新的多项选择视频问题回答（Video QA）的训练方案，其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中，我们将原始问题格式进行了转化，以预测相关问题并提供模型更广泛的背景输入。然后，我们在对比学习的主阶段中添加了屏蔽噪声，并通过将正样本映射到受掩输入来改进模型表现。最后，我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明，我们的模型在相关测试集上均取得了最先进的性能，并通过进一步的分析验证了我们的方法。

Sep, 2020

弱监督查询视频定位的多尺度自对比学习与硬负例挖掘

本研究提出了一种自我对比学习框架来在弱监督的条件下解决基于查询的视频定位任务，通过学习针对查询语义的逐帧匹配分数以预测可能的前景帧，并采用粗到细的对比学习方法来区分误检的帧，从而提高了视频定位的准确性。

Mar, 2022

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

揭示视频问答模型中联合多模态理解的幻觉

通过 QUAG 探究 VideoQA Transformer 模型对于多模态结构与动态的理解，提出对于多模态 VideoQA 表示的可靠性检验，CLAVI Benchmark, 通过对反事实情景的测评，发现目前的模型在处理多模态 VideoQA 表示的亚优化方面有待改善。

Jun, 2023