金鱼:对任意长视频的视觉语言理解
本文提出了一种名为VideoLLM的新框架,它利用了自然语言处理(NLP)预训练LLMs的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的LLM中。在实验中,作者评估了VideoLLM在多个任务上的表现,证明了LLMs的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
使用长视频理解任务中的Large Language Models(LLMs)面临的挑战,本文提出了一种名为LongVLM的VideoLLM模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
这篇论文介绍了VideoStreaming,一种用于视频理解的先进视觉语言大型模型(VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024
我们提出了DrVideo,它是一个基于文档检索的系统,用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo在长视频基准测试上的准确性优于现有的最先进方法,在EgoSchema基准测试上提高了3.8%的准确性,在MovieChat-1K break模式上提高了17.9%,在MovieChat-1K全球模式上提高了38.0%,在LLama-Vid QA数据集上提高了30.2%(超过60分钟)。
Jun, 2024
本研究针对大语言模型扩展至视频数据的难题,提出了一种新的长视频处理方法Kangaroo。该模型通过数据策划系统构建高质量注释的大规模数据集,并设计了具有逐渐增加分辨率和输入帧数的训练流程。实验结果表明Kangaroo在视频理解基准测试中表现优异,尤其是在长视频上超越了许多大型模型。
Aug, 2024
本研究针对现有多模态大语言模型在处理极长视频时面临的挑战,特别是上下文长度限制和视觉清晰度下降的问题,提出了Video-XL模型。通过引入视觉上下文潜在总结技术,该模型高效地将视觉信息压缩并实现了在长视频理解基准上的优异表现,展示了其在视频摘要、监控异常检测和广告投放识别等应用中的重要潜力。
Sep, 2024
本研究针对长视频理解面临的独特挑战,探讨了多模态大语言模型(MM-LLMs)的设计与训练差异。通过总结现有研究进展,本论文揭示了在空间时间细节和长期依赖性方面的关键问题,并展示了MM-LLMs在不同视频长度理解基准测试中的表现,为未来长视频理解的方向提供了重要见解。
Sep, 2024
本研究解决了使用大型语言模型(LLMs)在长视频理解中面临的信息冗余问题。提出的VideoINSTA框架结合事件驱动和内容驱动的时空推理,显著提升了三项长视频问答基准测试的表现,展示了其在零样本长视频分析中的有效性与影响力。
Sep, 2024