Jul, 2024
重新思考图像到视频的适应:一个以物体为中心的视角
Rethinking Image-to-Video Adaptation: An Object-centric Perspective
TL;DR通过采用对象为中心的视角,本文提出了一种新颖高效的图像到视频适应策略。结合可学习查询的槽注意力,将每帧图像压缩为一组紧凑的对象令牌,并通过对象时间交互层建模对象在时间上的状态变化。通过两种新颖的对象级损失,我们的方法在行动识别基准测试上以较少的可调参数(仅为完全微调模型的5%和高效微调方法的50%)达到了最先进的性能。此外,我们的模型在零样本视频对象分割中表现良好,无需进一步的重新训练或对象注释,证明了对象为中心的视频理解的有效性。