具有视觉-语言基础模型的开放域适应
在没有使用带标签源数据集的情况下,提出了一种新颖的领域适配范式,其中源培训模型被用于实现适应。该方法包括一种知识继承度量方法,以及一种可实现适应的继承模型选择方法。在视觉识别任务中进行综合实验评估,取得了最先进的开放域适配性能。
Apr, 2020
基于基础模型(如CLIP或DINOv2),本文通过全面实证研究最新的通用域自适应方法,发现现有方法往往无法超越基准线表现;作者提出了一种简单的基于目标数据提炼的方法,并在所有通用分类率基准测试中实现了一致的改进,提出了新的评价指标UCR来解决使用现有的H-score度量时遇到的阈值敏感问题。
May, 2023
源无关领域适应 (SFDA) 旨在适应一个源模型到目标领域,只能访问标记有监督源领域的预先训练的模型和无标记目标培训数据。我们首次探索了富含异构知识的现成视觉-语言多模态模型 (例如 CLIP) 的潜力,提出了一种新颖的蒸馏多模态基础模型 (DIFO)方法来解决现有方法中不可避免的错误问题,并通过两个步骤的交替来使其任务特定化,实验结果表明 DIFO 显著优于现有的替代方法。
Nov, 2023
无监督领域自适应(UDA)通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集,克服了标记数据的繁琐工作。本文结合UDA获得的知识与视觉-语言模型的内在知识。通过视觉-语言模型生成源数据集和目标数据集的零样本预测,调整分布以凸显获胜概率,同时使用源数据和目标数据以保持相对置信度。我们通过传统的领域自适应方法和自知识蒸馏法结合实现对源数据集的知识获取,并将该方法与一种渐进源域扩展策略(GSDE)相结合,结果表明零样本预测也有益处。我们在三个基准测试集(OfficeHome、VisDA和DomainNet)上进行实验和消融研究,超过了最先进的方法,并在消融研究中展示了我们算法不同部分的贡献。
Dec, 2023
提出了一种新的任务设置——统一的语言驱动零样本领域适应(ULDA),使得单个模型能够在没有显式域标识知识的情况下适应多样的目标领域。通过在多个视觉层次上对齐模拟特征和目标文本、保留不同区域表示之间的语义相关性以及校正模拟和真实目标视觉特征之间的偏差,该框架在两个场景下实现了竞争性的性能,展示了其优越性和泛化能力。
Apr, 2024
我们提出了一种基于视觉语言模型的领域自适应方法,通过结合参数高效的提示微调和三元组损失训练策略,提高了开放词汇的普适性,并适应了视觉领域,改善了开放词汇分割任务中的性能。
May, 2024
通过直接利用CLIP进行领域间差异度量,提出了一种新颖的以语言为导向的无监督域自适应方法CLIP-Div,通过收集到的领域不可知分布度量领域差异并使用语言引导校准目标伪标签,从而有效减小领域差距并提高模型的泛化能力,实验证明此方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均表现优于基于CNN的现有方法。
Jul, 2024
本文解决了无监督领域适应 (UDA) 中的两个关键挑战,尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD),利用VLP模型作为教师模型来指导目标领域的学习,从而实现了业界领先的性能。此外,提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性,显著提高了效率。
Aug, 2024
本研究针对领域适应过程中的目标数据获取困难问题,提出了一种新的基于单一视觉-语言嵌入的方法。该方法通过对低级源特征的仿射变换进行优化,实现了一种特征增强方法,从而有效利用了多种视觉风格进行零样本和单样本无监督领域适应。实验表明,所提方法在语义分割任务中超过了相关基线,展现了其有效性。
Oct, 2024