考拉：关键帧条件化长视频 - LLM | BriefGPT

CVPRApr, 2024

考拉：关键帧条件化长视频 - LLM

Koala: Key frame-conditioned long video-LLM

Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy...

TL;DR提出了一种轻量级自监督方法，将可学习的时空查询引入预训练模型以适应长视频，通过在 HowTo100M 数据集上进行训练，并在零样本长视频理解基准测试中表现出良好性能。

Abstract

long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video large language models (vLLMs) hold

long video question answering video large language models key frame-conditioned long video-llm learnable spatiotemporal queries zero-shot long video understanding benchmarks

发现论文，激发创造

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

LifelongMemory: 利用 LLM 为参照视频中的问题提供答案

通过使用多个预训练模型从广泛的自我中心视频内容中回答查询，本研究引入了 LifelongMemory，这是一种利用大型语言模型和视觉语言模型的新框架，以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。

Dec, 2023

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

LLMs 迎接长视频：LLMs 中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024