Video-XL：超长视觉语言模型用于小时级视频理解

Sep, 2024

Video-XL：超长视觉语言模型用于小时级视频理解

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

Yan Shu, Peitian Zhang, Zheng Liu, Minghao Qin, Junjie Zhou...

TL;DR本研究针对现有多模态大语言模型在处理极长视频时面临的挑战，特别是上下文长度限制和视觉清晰度下降的问题，提出了Video-XL模型。通过引入视觉上下文潜在总结技术，该模型高效地将视觉信息压缩并实现了在长视频理解基准上的优异表现，展示了其在视频摘要、监控异常检测和广告投放识别等应用中的重要潜力。

Abstract

Although current Multi-modal Large Language Models (MLLMs) demonstrate promising results in Video Understanding, processing extremely Long Videos remains an ongoing challenge. Typically, MLLMs struggle with handl

发现论文，激发创造

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

LLMs迎接长视频：LLMs中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频-LLM通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的Large Language Models（LLMs）面临的挑战，本文提出了一种名为LongVLM的VideoLLM模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和GPU内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

大型视觉-语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频-LVLM模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的LVLM模型高效演化为视频-LVLM模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

金鱼：对任意长视频的视觉语言理解

本研究介绍了一种名为Goldfish的方法，针对各种长度的视频进行理解，通过有效的检索机制并结合MiniGPT4-Video生成详细描述，从而在长短视频理解方面取得了显著的改进，超过了现有的方法。

Jul, 2024

从秒到小时：多模态大语言模型在综合长视频理解上的评审

本研究针对长视频理解面临的独特挑战，探讨了多模态大语言模型（MM-LLMs）的设计与训练差异。通过总结现有研究进展，本论文揭示了在空间时间细节和长期依赖性方面的关键问题，并展示了MM-LLMs在不同视频长度理解基准测试中的表现，为未来长视频理解的方向提供了重要见解。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了长视频理解中大多模态模型（LMMs）面临的性能挑战，特别是视觉和语言模态之间的上下文窗口差异。通过扩展视觉上下文窗口，研究提供了一种新的方法，可以在不重新训练长视频数据集的情况下适应长视频任务。此外，引入的渐进池化推理策略有效降低了内存消耗，同时保持了重要的空间信息，显著提高了长视频理解的性能。

Sep, 2024

视觉上下文窗口扩展：长视频理解的新视角

本研究解决了现有大型多模态模型在长视频理解中的不足，提出了一种通过扩展视觉上下文窗口的方法，以便在无需重新训练长视频数据集的情况下应用LMMs。研究结果表明，该方法在多个长视频理解基准上均显著提升了性能，尤其是在内存使用方面的改进减少约45%的记忆消耗，且不影响性能表现。

Sep, 2024