CVPRMar, 2024

分合:统一分离模式的非监督领域适应

TL;DR大型视觉语言模型(VLM)如 CLIP 在无监督域自适应任务中表现出良好的零样本学习性能,为了充分利用语言和视觉之间微妙的相互作用,本文引入了一种统一的模态分离(UniMoS)框架进行无监督域自适应,通过利用模态间差异研究的见解,我们设计了一种灵活的模态分离网络,将 CLIP 的特征明确地分解为与语言相关和与视觉相关的部分,我们提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保留了模态特定的细微差别,通过模态鉴别器在域间进行特征对齐,我们全面评估了三个基准数据集,结果显示我们的方法以极小的计算成本取得了新的最先进水平。