针对深度视频理解的查询感知长视频定位和关系判别
我们提出了 DrVideo,它是一个基于文档检索的系统,用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法,在 EgoSchema 基准测试上提高了 3.8%的准确性,在 MovieChat-1K break 模式上提高了 17.9%,在 MovieChat-1K 全球模式上提高了 38.0%,在 LLama-Vid QA 数据集上提高了 30.2%(超过 60 分钟)。
Jun, 2024
本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。
Jun, 2021
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
为了解决现有视频理解基准测试中存在的问题,本文提出了一个新的基准测试 MLVU(多任务长视频理解基准测试),包括视频长度的灵活扩展、各种视频类型的包含以及多样化的评估任务,通过对最新 MLLMs 的实证研究,揭示了今天的技术在长视频理解方面仍有改进的空间,提出了未来进展中上下文长度、图像理解质量和 LLM 骨干选择等因素发挥关键作用,预期 MLVU 将通过对 MLLMs 进行全面深入的分析,推动长视频理解的研究。
Jun, 2024
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
本文介绍了一个基于语义分类的大规模 Holistic 视频理解数据集 HVU,它实现了对多标签、多任务视频理解的全面考虑,以及介绍了一种新的综合外观和时间神经网络体系结构 HATNet,本文拓展了视频识别范畴,验证了 Holistic 表示学习在许多实际应用程序中的重要作用。
Apr, 2019
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。
Jan, 2024
我们提出了一种名为 RTQ(Refine,Temporal model 和 Query)的新型框架,同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战,这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定信息来实现。令人惊讶的是,即使在无视频语言预训练的情况下,我们的模型也表现出色,并且结果与或优于最先进的预训练方法。
Dec, 2023