Dec, 2023

带有屏蔽预训练和协作自训练的无监督视频领域适应

TL;DR本研究解决了视频动作识别中的无监督领域适应问题。我们的方法称为 UNITE,利用图像教师模型将视频学生模型适应到目标域。UNITE 首先使用自监督预训练来促进目标域视频的辨别性特征学习,使用教师引导的遮蔽蒸馏目标进行自训练。然后,我们使用视频学生模型和图像教师模型一起对目标数据进行遮蔽自训练,生成改进的伪标签来处理无标签目标视频。我们的自训练过程成功地利用了两个模型的优势,在不同领域之间实现了强大的迁移性能。我们在多个视频领域适应基准上评估了我们的方法,并观察到比以前报告的结果有显著提高。