学习跨模态对比特征以实现视频领域自适应
本文通过多模式自我监督对齐方法及对抗式对齐方法,提高细粒度行为识别跨环境泛化能力。在 EPIC-Kitchens 数据集中,多模式自我监督训练可将性能提高 2.4%,结合对抗式对齐方法可超过其他对抗式训练方法 3%。
Jan, 2020
本文介绍了 Contrast and Mix(CoMix)的新对比学习框架,旨在为无监督的视频领域适应学习具有判别不变性的特征表示。与现有方法依靠对抗学习进行特征对齐不同,我们利用时间对比学习通过最大化未标记视频在两个不同速度下的编码表示的相似性以及最小化不同速度下播放的不同视频的相似性来弥合领域差距,还利用背景混合提出了一种用于时间对比性损失的新型扩展,从而允许每个锚点附加附加正物,增加视频领域适应的语义分享。此外,我们还使用目标伪标签集成了有监督的对比性学习目标,以增强视频领域适应的潜在空间的可区分性。在几个基准数据集上进行的广泛实验验证了我们所提出的方法的优越性。
Oct, 2021
基于多模态的视频主题分段器利用视频转录和帧,结合跨模态注意机制,提出了一种双对比学习框架,从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明,我们的解决方案明显优于基准方法,无论是准确度还是可转移性,在域内和跨领域设置下都有显著提升。
Nov, 2023
通过特征水平领域自适应方法,该文提供一种学习判别式视频帧表示的方法,利用大规模无标签的视频数据,使得模型可以转移从大规模标记的静态图像中获得的判别性知识。实验表明,该方法可大幅度提升视频人脸识别性能,达到最先进的准确性。
Aug, 2017
本文介绍了一种新的领域适应策略 - “交叉模态学习”,在无监督和半监督领域适应设置下,通过两种模式的相互模仿实现模态之间的一致性,在 3D 语义分割任务中证明了该方法的有效性
Jan, 2021
本文提出了一种新的领域自适应字典学习框架用于跨领域视觉识别,该方法通过学习一组中间领域,形成一个平滑的路径来弥补源域和目标域之间的差距,并通过分离共享字典和特定字典来实现更紧凑和再现性字典的学习,通过领域自适应稀疏编码和字典更新步骤学习。实验结果表明,该方法在三个公共数据集上表现优于大多数最先进的方法。
Apr, 2018
本文提出了一种基于领域自适应的行为识别方法,使用对抗学习在跨域场景中学习跨域动作识别,从而实现对低光条件下的人类行为进行识别,并在 InFAR 和 XD145 动作数据集上取得了 SOTA 表现。
Oct, 2022
本文提出了一种新的适应性框架,用于跨任务和领域传递知识,通过在一个完全监督域中学习跨任务和领域的知识,使其在只有部分监督域中实现性能增益。实验证明了该框架在两个具有挑战性的任务(即单眼深度估计和语义分割)和四个不同领域(Synthia、Carla、Kitti 和 Cityscapes)中的有效性。
Apr, 2019