LanDA: 语言引导的多源域自适应
提出了更普适的交叉领域语义分割问题(TACS),该问题允许两个域之间的标签存在不一致性,并引入一种同时解决图像级和标签级适应性的方法,即采用双边混合采样策略增强目标域并使用标签重标记方法统一标签空间,同时提供一种基于对比学习的不确定性校正方法以减少域差异。大量实验结果表明该方法优于现有最优解,且能够适应目标分类学。
Sep, 2021
无监督域自适应对标记数据集域与无标记数据集域之间的知识转移非常有效,开放集域自适应解决了目标域中可能存在的未知类别问题,这项工作探索了使用CLIP来应用于开放集域自适应的通用方法,并通过熵优化策略提高了模型性能,提供了在多个基准测试上最新的结果,证明了其在解决目标域适应问题中的有效性。
Jul, 2023
以无监督域适应和无源自适应方法为研究对象,通过研究ImageNet与源域及目标域之间的相关性及ImageNet对目标风险的影响,发现现有方法存在的关键限制,并提出了一种新的框架TriDA,通过保留预训练数据集(即ImageNet)的语义结构来提升适应性能。实验证明,TriDA在各种无监督域适应和无源自适应评估中取得了最先进的性能。
Aug, 2023
本文提出了一种新颖的方法,通过一种特殊的关系定制方法来有效地转移多模态知识,以解决跨领域适配问题,实验结果表明,我们的方法显著提高了多模态领域的可转移性,并增强了Referring Expression Grounding问题的适配性能。
Sep, 2023
源无关领域适应 (SFDA) 旨在适应一个源模型到目标领域,只能访问标记有监督源领域的预先训练的模型和无标记目标培训数据。我们首次探索了富含异构知识的现成视觉-语言多模态模型 (例如 CLIP) 的潜力,提出了一种新颖的蒸馏多模态基础模型 (DIFO)方法来解决现有方法中不可避免的错误问题,并通过两个步骤的交替来使其任务特定化,实验结果表明 DIFO 显著优于现有的替代方法。
Nov, 2023
无监督领域自适应(UDA)通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集,克服了标记数据的繁琐工作。本文结合UDA获得的知识与视觉-语言模型的内在知识。通过视觉-语言模型生成源数据集和目标数据集的零样本预测,调整分布以凸显获胜概率,同时使用源数据和目标数据以保持相对置信度。我们通过传统的领域自适应方法和自知识蒸馏法结合实现对源数据集的知识获取,并将该方法与一种渐进源域扩展策略(GSDE)相结合,结果表明零样本预测也有益处。我们在三个基准测试集(OfficeHome、VisDA和DomainNet)上进行实验和消融研究,超过了最先进的方法,并在消融研究中展示了我们算法不同部分的贡献。
Dec, 2023
利用大规模预训练视觉-语言模型的知识进行领域不可知的相互提示,通过互相对齐视觉和文本嵌入来利用领域不变的语义,并通过语义一致性损失和实例差异对齐损失进行规则化,实验证明 Domain-Agnostic Mutual Prompting(DAMP)相较于现有方法在三个无监督领域自适应基准上具有优势。
Mar, 2024
我们介绍了一种称为LaGTran的新框架,它利用现成或轻松获取的文本描述来指导具有领域偏移的标记源和未标记目标数据之间的强大的分类知识转移,并通过语言引导驱动的方法在各种具有挑战性的数据集上取得了显著优势。
Mar, 2024
提出了一种新的任务设置——统一的语言驱动零样本领域适应(ULDA),使得单个模型能够在没有显式域标识知识的情况下适应多样的目标领域。通过在多个视觉层次上对齐模拟特征和目标文本、保留不同区域表示之间的语义相关性以及校正模拟和真实目标视觉特征之间的偏差,该框架在两个场景下实现了竞争性的性能,展示了其优越性和泛化能力。
Apr, 2024