大型语言-视觉模型对无源视频领域自适应的非理性有效性
本文综述了最新的单源深度无监督域适应方法,主要集中在视觉任务中,并讨论了未来研究的新视角。首先介绍了不同领域适应策略的定义和现有基准数据集的描述,然后总结和比较了不同类别的单源无监督域适应方法,包括基于差异性的方法,对抗式鉴别方法,对抗式生成方法和自监督方法,并探讨了未来的研究方向、挑战和可能的解决方案。
Sep, 2020
本研究提出了一种名为ATCoN的新的注意力机制深度神经网络,以解决视频领域无源域自适应的挑战,该网络通过学习特征一致性和源预测一致性来提高时间一致性,并使用预测置信度优化局部与整体时间特征,该方法在不同领域的动作识别基准中表现出卓越的性能。
Mar, 2022
本文提出了一种基于循环域自适应(CycDA)算法的无监督图像到视频域自适应方法,通过利用图像和视频之间的联合空间信息,以及采用独立的时空模型来缩小图像和视频数据的间隔以应对空间域转换和模态差异的挑战,并在基准数据集上取得了最新的技术进展。
Mar, 2022
基于基础模型(如CLIP或DINOv2),本文通过全面实证研究最新的通用域自适应方法,发现现有方法往往无法超越基准线表现;作者提出了一种简单的基于目标数据提炼的方法,并在所有通用分类率基准测试中实现了一致的改进,提出了新的评价指标UCR来解决使用现有的H-score度量时遇到的阈值敏感问题。
May, 2023
本研究针对动作识别中无监督视频域适应的挑战性问题,特别关注具有相当大的域差异而不是现有工作主要处理标记源领域和未标记目标领域之间的小域差异的情况。为了建立更真实的环境,我们引入了一种新的UVDA场景,称为Kinetics->BABEL,该场景在时间动态和背景偏移方面具有更大的域差异。为了解决源领域和目标领域之间的动作持续时间差异所带来的时间差异问题,我们提出了一种全局局部视图对齐方法。为了减轻背景偏移问题,我们通过时间顺序学习来学习时间顺序敏感的表示,并通过背景增强来学习背景不变的表示。我们通过实验证明,所提出的方法在具有大域差异的Kinetics->BABEL数据集上相比现有方法表现出显著的改进。代码可以在此https URL找到。
Nov, 2023
源无关领域适应 (SFDA) 旨在适应一个源模型到目标领域,只能访问标记有监督源领域的预先训练的模型和无标记目标培训数据。我们首次探索了富含异构知识的现成视觉-语言多模态模型 (例如 CLIP) 的潜力,提出了一种新颖的蒸馏多模态基础模型 (DIFO)方法来解决现有方法中不可避免的错误问题,并通过两个步骤的交替来使其任务特定化,实验结果表明 DIFO 显著优于现有的替代方法。
Nov, 2023
视频领域适应的对象化(但类别不可知)视频领域适应(ODAPT)框架通过利用目标领域中一组稀疏的具有类别不可知对象注释的帧来适应现有的动作识别系统,为新领域的适应提供了一种简单而有效的方法。
Nov, 2023
无监督领域自适应(UDA)通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集,克服了标记数据的繁琐工作。本文结合UDA获得的知识与视觉-语言模型的内在知识。通过视觉-语言模型生成源数据集和目标数据集的零样本预测,调整分布以凸显获胜概率,同时使用源数据和目标数据以保持相对置信度。我们通过传统的领域自适应方法和自知识蒸馏法结合实现对源数据集的知识获取,并将该方法与一种渐进源域扩展策略(GSDE)相结合,结果表明零样本预测也有益处。我们在三个基准测试集(OfficeHome、VisDA和DomainNet)上进行实验和消融研究,超过了最先进的方法,并在消融研究中展示了我们算法不同部分的贡献。
Dec, 2023
本文解决了无监督领域适应 (UDA) 中的两个关键挑战,尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD),利用VLP模型作为教师模型来指导目标领域的学习,从而实现了业界领先的性能。此外,提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性,显著提高了效率。
Aug, 2024