从秒到小时：多模态大语言模型在综合长视频理解上的评审

Sep, 2024

从秒到小时：多模态大语言模型在综合长视频理解上的评审

From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding

Heqing Zou, Tianze Luo, Guiyang Xie, Victor, Zhang...

TL;DR本研究针对长视频理解面临的独特挑战，探讨了多模态大语言模型（MM-LLMs）的设计与训练差异。通过总结现有研究进展，本论文揭示了在空间时间细节和长期依赖性方面的关键问题，并展示了MM-LLMs在不同视频长度理解基准测试中的表现，为未来长视频理解的方向提供了重要见解。

Abstract

The integration of Large Language Models (LLMs) with visual encoders has recently shown promising performance in visual understanding tasks, leveraging their inherent capability to comprehend and generate human-like text for Visual Reasoning. Given the diverse nature of visual data,

发现论文，激发创造

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

LLMs迎接长视频：LLMs中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频-LLM通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的Large Language Models（LLMs）面临的挑战，本文提出了一种名为LongVLM的VideoLLM模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和GPU内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

从图像到视频，多模态LLMs需要什么？

提出一种高效的方法，通过调整图像多模态语言模型的图像融合模块，利用图像多模态语言模型的先验知识，实现从图像到视频多模态语言模型的资源高效转换，从而提高视频多模态语言模型的时间理解能力，以更少的数据和资源进行训练。

Apr, 2024

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了长视频理解中大多模态模型（LMMs）面临的性能挑战，特别是视觉和语言模态之间的上下文窗口差异。通过扩展视觉上下文窗口，研究提供了一种新的方法，可以在不重新训练长视频数据集的情况下适应长视频任务。此外，引入的渐进池化推理策略有效降低了内存消耗，同时保持了重要的空间信息，显著提高了长视频理解的性能。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了现有大型多模态模型在长视频理解中的不足，提出了一种通过扩展视觉上下文窗口的方法，以便在无需重新训练长视频数据集的情况下应用LMMs。研究结果表明，该方法在多个长视频理解基准上均显著提升了性能，尤其是在内存使用方面的改进减少约45%的记忆消耗，且不影响性能表现。

Sep, 2024