大语言模型时代的视频问答：实证研究

Aug, 2024

大语言模型时代的视频问答：实证研究

VideoQA in the Era of LLMs: An Empirical Study

Junbin Xiao, Nanxin Huang, Hangyu Qin, Dongyang Li, Yicong Li...

TL;DR本研究关注视频问答（VideoQA）在视频大语言模型（Video-LLMs）发展中的关键作用，探讨其成功与失败模式。研究发现，虽然Video-LLMs在回答视频内容问题上表现出色，但在处理视频的时间性和鲁棒性方面存在显著不足，强调了在开发中需要加强对其行为的解释能力。

Abstract

Video Large Language Models (Video-LLMs) are flourishing and has advanced many video-language tasks. As a golden testbed, Video Question Answering (VideoQA) plays pivotal role in Video-LLM developing. This work c

发现论文，激发创造

视频问答：数据集、算法和挑战

本文针对 VideoQA 展开研究，提出了一个明确的分类学和全面的分析方法，并指出未来探索的几个有前途的方向。

Mar, 2022

开放式词汇视频问答：评估视频问答模型的通用性的新基准

提出了Open-vocabulary Video Question Answering（OVQA）基准测试，旨在通过考虑罕见和未知的答案来衡量VideoQA模型的泛化能力，并引入一种改进了模型泛化能力的新型GNN-based soft verbalizer。

Aug, 2023

大型语言模型是视频问答中的时间和因果推理器

通过使用Flipped-VQA框架，我们成功应用于LLaMA-VQA和其它LLMs模型，取得了在五个具有挑战性的VideoQA基准测试中优于基于LLMs和非LLMs模型的结果，并且实验证明Flipped-VQA不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

VaQuitA: 提升LLM辅助视频理解中的对齐能力

最近，基于语言模型的视频理解取得了令人瞩目的进展，这得益于大型语言模型（LLMs）的引入。然而，以往的研究重点主要集中在设计将视频特征映射到标记的投影层，这种方法既基础又低效。在我们的研究中，我们引入了一个最先进的框架VaQuitA，旨在提高视频和文本信息之间的协同作用。在数据层面上，我们采用由CLIP分数排名引导的采样方法，而不是均匀采样帧，这样可以更好地选择与给定问题相一致的帧。在特征层面上，我们将可训练的视频感知器与Visual-Query Transformer（简称VQ-Former）集成在一起，以增强输入问题和视频特征之间的相互作用。我们还发现，将一个简单的提示“Please be critical”加入LLM输入可以大大增强其对视频的理解能力。我们的实验结果表明，VaQuitA在零样本视频问答任务中始终保持着新的基准，并且能够与用户生成高质量的多轮视频对话。

Dec, 2023

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

一种用于长视频问答的简单LLM框架

我们介绍了LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧/片段级的视觉描述器和大型语言模型（如GPT-3.5，GPT-4），结合简单且出奇有效的LVQA框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

VideoINSTA：通过信息丰富的时空推理实现零样本长视频理解

本研究解决了使用大型语言模型（LLMs）在长视频理解中面临的信息冗余问题。提出的VideoINSTA框架结合事件驱动和内容驱动的时空推理，显著提升了三项长视频问答基准测试的表现，展示了其在零样本长视频分析中的有效性与影响力。

Sep, 2024