大语言模型时代的视频问答:实证研究
提出了Open-vocabulary Video Question Answering(OVQA)基准测试,旨在通过考虑罕见和未知的答案来衡量VideoQA模型的泛化能力,并引入一种改进了模型泛化能力的新型GNN-based soft verbalizer。
Aug, 2023
通过使用Flipped-VQA框架,我们成功应用于LLaMA-VQA和其它LLMs模型,取得了在五个具有挑战性的VideoQA基准测试中优于基于LLMs和非LLMs模型的结果,并且实验证明Flipped-VQA不仅增强了语言快捷方式的利用,还减轻了由于过度依赖问题而导致错误答案的语言偏见。
Oct, 2023
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
最近,基于语言模型的视频理解取得了令人瞩目的进展,这得益于大型语言模型(LLMs)的引入。然而,以往的研究重点主要集中在设计将视频特征映射到标记的投影层,这种方法既基础又低效。在我们的研究中,我们引入了一个最先进的框架VaQuitA,旨在提高视频和文本信息之间的协同作用。在数据层面上,我们采用由CLIP分数排名引导的采样方法,而不是均匀采样帧,这样可以更好地选择与给定问题相一致的帧。在特征层面上,我们将可训练的视频感知器与Visual-Query Transformer(简称VQ-Former)集成在一起,以增强输入问题和视频特征之间的相互作用。我们还发现,将一个简单的提示“Please be critical”加入LLM输入可以大大增强其对视频的理解能力。我们的实验结果表明,VaQuitA在零样本视频问答任务中始终保持着新的基准,并且能够与用户生成高质量的多轮视频对话。
Dec, 2023
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
我们介绍了LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧/片段级的视觉描述器和大型语言模型(如GPT-3.5,GPT-4),结合简单且出奇有效的LVQA框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
Dec, 2023
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
本研究解决了使用大型语言模型(LLMs)在长视频理解中面临的信息冗余问题。提出的VideoINSTA框架结合事件驱动和内容驱动的时空推理,显著提升了三项长视频问答基准测试的表现,展示了其在零样本长视频分析中的有效性与影响力。
Sep, 2024