Mar, 2024

VidLA: 视频-语言对齐的大规模实现

TL;DR我们提出了VidLA,这是一种用于大规模视频-语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像-文本基础模型来提高最终性能。此外,我们利用最近的LLMs构建了迄今为止规模最大的视频-语言数据集,包含不同长度的视频片段,以帮助在不同时间尺度下提取更好的表示。实验证明,我们的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上,并在分类基准上具有竞争力。