自我模式:一种用于超长视频语言理解的诊断基准
我们提出了一个新颖且具有挑战性的基准,AutoEval-Video,以全面评估开放式视频问答中的大规模视觉语言模型。
Nov, 2023
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
通过引入全面的多模式视频理解基准(MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型(MLLMs)的时间理解能力,并且开发了一种强大的视频MLLM基准模型VideoChat2,检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。
Nov, 2023
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
本文旨在解决在长时间自我中心视频中的开放式问题回答,提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成,并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性,并在QAEgo4D和Ego4D-NLQ基准测试中达到了最先进的性能。
Dec, 2023
我们介绍了LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧/片段级的视觉描述器和大型语言模型(如GPT-3.5,GPT-4),结合简单且出奇有效的LVQA框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
Dec, 2023
使用长视频理解任务中的Large Language Models(LLMs)面临的挑战,本文提出了一种名为LongVLM的VideoLLM模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
创新的方法使用人工生成的原始数据,结合 LLMS,构建了一个包含305,000个多项选择题的全面数据集 CinePile,涵盖视觉和多模态方面,包括对时间的理解、人物-对象交互的理解以及场景内事件或动作的推理。同时,还对最近的基于视频的 LLMs 进行了评估,发现即使是最先进的视频中心的 LLMs 在这些任务中也明显落后于人类的表现,突显了视频理解的复杂性和挑战。
May, 2024
这篇论文介绍了VideoStreaming,一种用于视频理解的先进视觉语言大型模型(VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024
理解长视频的困难和挑战,现有的基准测试主要关注较短的视频片段。为了弥补这一差距,我们引入了InfiniBench,这是一个全面的、针对非常长视频理解的基准测试,它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估,我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。
Jun, 2024