Nov, 2023

Vamos: 视频理解的多功能行为模型

TL;DR在研究中,我们提出了一种基于大型语言模型的学习框架,使用视频中提取的动作标签和自由形式的描述作为输入,证明了基于文本的视频表示在语言模型时代具有竞争力的表现,并在多个基准测试中取得了最先进的性能。