Mar, 2024

$R^2$-Tuning:高效的图像到视频迁移学习用于视频时间绑定

TL;DR在本文中,我们提出了一种轻量级的 $R^2$-Tuning 模型,通过逆向递归调整的方式,利用 CLIP 模型的各层次信息进行精细的时空建模,以实现视频时序定位的最先进性能。