MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

Apr, 2024

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力：交错的视觉 - 文本标记

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Kirolos Ataallah, Xiaoqian Shen, Eslam Abdelrahman, Essam Sleiman, Deyao Zhu...

TL;DR这篇论文介绍了 MiniGPT4-Video，一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据，从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力，该模型能够处理连续的视频帧序列，使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容，还结合了文本对话，使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法，分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。

Abstract

This paper introduces minigpt4-video, a multimodal large language model (LLM) designed specifically for video understanding. The model is

minigpt4-video multimodal large language model video understanding temporal visual and textual data sequence of frames

发现论文，激发创造

GPT4Video：一种用于指令跟随理解和注重安全生成的统一多模态大型语言模型

GPT4Video 是一个统一的多模型框架，将大型语言模型（LLMs）赋予了视频理解和生成的能力，通过集成基于指令遵循的方法和稳定扩散生成模型，GPT4Video 在视频理解和生成场景中表现出优异的能力，同时保持端到端的安全和健康对话。

Nov, 2023

MiniGPT-4: 借助先进的大型语言模型增强视觉 - 语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像 GPT-4 这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

MiniGPT-5：基于生成 Vokens 的交叉视觉与语言生成

分阶段训练方法和生成 vokens 提高大型语言模型在视觉和语言生成方面的效果。

Oct, 2023

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024

MM-VID: 用 GPT-4V (ision) 推进视频理解

MM-VID 利用 GPT-4V 和图像、音频和语音的专用工具，提供综合系统来促进高级视频理解，尤其是解决长篇视频和涉及推理等复杂任务的挑战。通过使用 GPT-4V 进行视频转文本生成，MM-VID 能够将多模态元素转录为长文本脚本，从而实现大型语言模型对视频的理解，包括音频描述，角色识别和多模态高层次理解。实验结果表明，MM-VID 在处理不同类型的视频和各种时长的视频中表现出了很好的效果，并展示了在交互环境中（如视频游戏和图形用户界面）应用的潜力。

Oct, 2023

TinyGPT-V: 通过小型骨干实现高效的多模态大型语言模型

在先进的多模式学习时代，本文介绍了 TinyGPT-V 这一低计算资源需求的多模式大型语言模型，通过小型骨干网络实现了高效的语言 - 视觉交互，为设计成本效益高、高性能的多模式大型语言模型的进一步发展提供了基础。

Dec, 2023

音视频 LLM 用于视频理解

该论文介绍了一种名为 Audio-Visual LLM 的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和 / 或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM 在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024