视觉上下文窗口扩展：长视频理解的新视角

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

Visual Context Window Extension: A New Perspective for Long Video Understanding

Hongchen Wei, Zhenzhong Chen

TL;DR本研究解决了现有大型多模态模型在长视频理解中的不足，提出了一种通过扩展视觉上下文窗口的方法，以便在无需重新训练长视频数据集的情况下应用LMMs。研究结果表明，该方法在多个长视频理解基准上均显著提升了性能，尤其是在内存使用方面的改进减少约45%的记忆消耗，且不影响性能表现。

Abstract

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to Long Video Understanding. In contrast, Large Language Models (L

发现论文，激发创造

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的Large Language Models（LLMs）面临的挑战，本文提出了一种名为LongVLM的VideoLLM模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和GPU内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

LongVILA：为长视频扩展长期上下文视觉语言模型

本研究解决了多模态基础模型在处理长上下文时的局限。提出的LongVILA是一种全栈解决方案，通过引入多模态序列并行系统和五阶段模型训练流程，显著提高了长视频的上下文处理能力。实验结果表明，LongVILA在长视频字幕生成方面的分数提高了1.6倍，表明其在视觉语言模型技术上的重要潜力。

Aug, 2024

LongVILA：扩展长视频的长上下文视觉语言模型

本研究针对多模态基础模型在长视频理解上的长上下文能力进行创新，提出了LongVILA，旨在通过算法与系统的协同设计解决这一问题。研究表明，LongVILA能够有效扩展视频帧数，从而大幅提升长视频的字幕评分，且其长上下文多模态序列并行系统在训练速度上优于现有技术，展现出广泛的应用潜力。

Aug, 2024

Video-XL：超长视觉语言模型用于小时级视频理解

本研究针对现有多模态大语言模型在处理极长视频时面临的挑战，特别是上下文长度限制和视觉清晰度下降的问题，提出了Video-XL模型。通过引入视觉上下文潜在总结技术，该模型高效地将视觉信息压缩并实现了在长视频理解基准上的优异表现，展示了其在视频摘要、监控异常检测和广告投放识别等应用中的重要潜力。

Sep, 2024

从秒到小时：多模态大语言模型在综合长视频理解上的评审

本研究针对长视频理解面临的独特挑战，探讨了多模态大语言模型（MM-LLMs）的设计与训练差异。通过总结现有研究进展，本论文揭示了在空间时间细节和长期依赖性方面的关键问题，并展示了MM-LLMs在不同视频长度理解基准测试中的表现，为未来长视频理解的方向提供了重要见解。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了长视频理解中大多模态模型（LMMs）面临的性能挑战，特别是视觉和语言模态之间的上下文窗口差异。通过扩展视觉上下文窗口，研究提供了一种新的方法，可以在不重新训练长视频数据集的情况下适应长视频任务。此外，引入的渐进池化推理策略有效降低了内存消耗，同时保持了重要的空间信息，显著提高了长视频理解的性能。

Sep, 2024