ICCVSep, 2023

高效图像到视频迁移学习的空间和时间解耦

TL;DRDiST 是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。