Oct, 2023

TESTA: 长篇视频 - 语言理解的时间空间令牌聚合

TL;DR通过引入一种高效的方法 TESTA,我们提出了一个预训练视频语言模型,该模型在每个视频编码器块中配备了一个分割的时空令牌聚合模块,从而减少了可视令牌数量并提高了计算效率。