Aug, 2024

LongVILA:扩展长视频的长上下文视觉语言模型

TL;DR本研究针对多模态基础模型在长视频理解上的长上下文能力进行创新,提出了LongVILA,旨在通过算法与系统的协同设计解决这一问题。研究表明,LongVILA能够有效扩展视频帧数,从而大幅提升长视频的字幕评分,且其长上下文多模态序列并行系统在训练速度上优于现有技术,展现出广泛的应用潜力。