Oct, 2023

ZeroI2V:从图像到视频的零成本预训练 Transformer 适应

TL;DR提出了一种零成本适应范式(ZeroI2V)来将图像变换器应用于视频识别任务,实现图像到视频的快速转换和零额外计算成本。通过引入空间 - 时间双头注意力(STDHA)和轻量级线性适配器的线性适应策略,实现了对视频动态性和图像与视频之间的领域差异的处理,达到与先前最先进的方法相当甚至超过的参数和推理效率。