大型语言模型是视频问答中的时间和因果推理器

EMNLPOct, 2023

大型语言模型是视频问答中的时间和因果推理器

Large Language Models are Temporal and Causal Reasoners for Video Question Answering

Dohwan Ko, Ji Soo Lee, Wooyoung Kang, Byungseok Roh, Hyunwoo J. Kim

TL;DR通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Abstract

large language models (LLMs) have shown remarkable performances on a wide range of natural language understanding and generation tasks. We observe that the LLMs provide effective priors in exploiting $\textit{linguistic

large language models video question answering linguistic shortcuts linguistic bias flipped-vqa

发现论文，激发创造

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

基于大型多模型的弱监督高斯对比定位的视频问答

提出了一种新颖的弱监督框架，用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答，通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻，并利用高斯对比基础模块学习视频的时间结构，将问题关键帧作为正样本作为大型多模态模型的视觉输入，实验证明该框架相比于先前最先进的方法取得了显著的改进。

Jan, 2024

量化和减轻多模大型语言模型中的单模偏差：因果视角

近期，大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力，但往往过于依赖单模态偏见（例如，语言偏见和视觉偏见），导致在复杂的多模态任务中回答错误。为了研究这个问题，我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中，我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测，并通过深入的因果分析评估偏见的因果效应。受到因果图的启发，我们引入了一个名为 MORE 的新数据集，包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力，需要进行多跳推理和克服单模态偏见。此外，我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力，包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。

Mar, 2024

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

语言模型是零 - shot 视频问答的因果知识提取器

提出了一种从语言模型中提取因果知识的框架 CaKE-LM，用于解决视频因果问答问题（CVidQA），并在 NExT-QA 和 Causal-VidQA 数据集上取得了显著的优势。

Apr, 2023

VaQuitA: 提升 LLM 辅助视频理解中的对齐能力

最近，基于语言模型的视频理解取得了令人瞩目的进展，这得益于大型语言模型（LLMs）的引入。然而，以往的研究重点主要集中在设计将视频特征映射到标记的投影层，这种方法既基础又低效。在我们的研究中，我们引入了一个最先进的框架 VaQuitA，旨在提高视频和文本信息之间的协同作用。在数据层面上，我们采用由 CLIP 分数排名引导的采样方法，而不是均匀采样帧，这样可以更好地选择与给定问题相一致的帧。在特征层面上，我们将可训练的视频感知器与 Visual-Query Transformer（简称 VQ-Former）集成在一起，以增强输入问题和视频特征之间的相互作用。我们还发现，将一个简单的提示 “Please be critical” 加入 LLM 输入可以大大增强其对视频的理解能力。我们的实验结果表明，VaQuitA 在零样本视频问答任务中始终保持着新的基准，并且能够与用户生成高质量的多轮视频对话。

Dec, 2023

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

为视觉问答填补图像信息缺口：引导大规模语言模型主动提问

通过设计一种框架，使得大型语言模型能够主动提问以揭示图像中的更多细节，改进了知识驱动的视觉问答任务的性能。

Nov, 2023

无需进一步训练的预训练基础模型应对 VQA

通过结合预训练大型语言模型和其他基础模型，本研究探索了一种无需进一步训练即可解决视觉问答问题的方法，并对不同的解码策略在 VQAv2 数据集上进行了性能评估。

Sep, 2023