LongVLM：通过大型语言模型实现高效长视频理解

Apr, 2024

LongVLM：通过大型语言模型实现高效长视频理解

LongVLM: Efficient Long Video Understanding via Large Language Models

Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, Bohan Zhuang

TL;DR使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Abstract

Empowered by Large Language Models (LLMs), recent advancements in videollms have driven progress in various video understanding tasks. These models encode video representations through pooling or query aggregation over a vast number of visual tokens, making computational and memory cos

videollms long video understanding local information hierarchical token merging module global semantics

发现论文，激发创造

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LLMs 迎接长视频：LLMs 中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

ST-LLM：大型语言模型是有效的时间学习器

通过在 Large Language Models（LLMs）中添加 Spatial-Temporal 序列建模，提高视频理解能力，并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性，从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。

Mar, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

VTimeLLM: 赋能 LLM 捕捉视频片段

该研究提出了 VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的 Video LLMs 模型。

Nov, 2023