Nov, 2024

VideoGLaMM:一种用于视频中像素级视觉定位的大型多模态模型

TL;DR本研究解决了视频与文本之间的细粒度对齐问题,现有的视频多模态模型在像素级定位方面存在不足。我们提出的VideoGLaMM模型通过结合大型语言模型、双重视觉编码器和时空解码器,实现了有效的视觉-语言对齐及准确的掩码生成。实验结果表明,VideoGLaMM在基础对话生成、视觉定位和视频分割等三个具有挑战性的任务中均优于现有方法。