LVCHAT：促进大视频理解

Feb, 2024

LVCHAT: Facilitating Long Video Comprehension

Yu Wang, Zeyuan Zhang, Julian McAuley, Zexue He

TL;DR通过引入动态调整嵌入数量以适应视频时长的方式，以及重复位置嵌入和交错多组视频以处理超长视频输入的方法，我们提出了 Long Video Chat (LVChat)，在长视频问答数据集和长视频字幕基准测试中，实验证明 LVChat 在准确度上优于现有方法高达 27%。

Abstract

Enabling large language models (LLMs) to read videos is vital for multimodal LLMs. Existing works show promise on short videos whereas long video (longer than e.g.~1 minute) comprehension remains challenging. The major problem lies in the over-compression of videos, i.e., the encoded v

large language models long video comprehension frame-scalable encoding interleaved frame encoding long-video qa datasets

发现论文，激发创造

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

LLMs 迎接长视频：LLMs 中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

TimeChat：长视频理解的时间敏感多模态大型语言模型

该研究提出了 TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外，我们构建了一个调整指令的数据集，包括 6 个任务和总共 12.5 万个实例，以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了 TimeChat 强大的零样本时态定位和推理能力。例如，在 YouCook2 上，它在 F1 评分上提升了 9.2，在 CIDEr 上提升了 2.8，在 QVHighlights 上的 HIT@1 提升了 5.8，在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Dec, 2023

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

LVBench：极长视频理解基准

多模态大型语言模型的最新进展在短视频（通常不超过一分钟）的理解方面取得了显著的提升，并相应产生了多个评估数据集。然而，这些进展还不足以满足现实世界应用的需求，如长期决策的具身智能、深入的电影评论和讨论，以及现场体育评论，这些都需要对数小时的长视频进行理解。为了弥补这一差距，我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频，囊括了一组多样化的任务，旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估，结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench，我们旨在推动更先进的模型的发展，以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用：this https URL

Jun, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024