使用大型语言模型的流式长视频理解

May, 2024

使用大型语言模型的流式长视频理解

Streaming Long Video Understanding with Large Language Models

Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Shuangrui Ding...

TL;DR这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

Abstract

This paper presents videostreaming, an advanced vision-language large model (VLLM) for video understanding, that capably understands arbit

videostreaming vision-language large model video understanding memory-propagated streaming encoding adaptive memory selection

发现论文，激发创造

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LLMs 迎接长视频：LLMs 中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

Flash-VStream：基于内存的长视频实时理解

在这篇论文中，我们介绍了一种名为 Flash-VStream 的视频语言模型，它模拟了人类的记忆机制，能够实时处理极长的视频流并同时对用户查询进行响应。与现有模型相比，Flash-VStream 在推理延迟和 VRAM 消耗方面实现了显著的减少，并在在线视频流理解领域表现出了优异的性能。我们还提出了 VStream-QA，一个专门为在线视频流理解设计的新型问答基准，与现有方法在该基准上的比较结果显示了我们方法在这个具有挑战性场景中的优势。此外，我们的方法在离线场景中也取得了最先进的性能。

Jun, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024