Apr, 2024

MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力:交错的视觉 - 文本标记

TL;DR这篇论文介绍了 MiniGPT4-Video,一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据,从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力,该模型能够处理连续的视频帧序列,使其能够理解视频。MiniGPT4-Video 不仅考虑了视觉内容,还结合了文本对话,使得该模型能够有效地回答涉及视觉和文本组成部分的问题。所提出的模型在 MSVD、MSRVTT、TGIF 和 TVQA 基准测试上的性能优于现有的最先进方法,分别提升了 4.22%、1.13%、20.82% 和 13.1%。我们的模型和代码在此网址 https URL 中公开提供。