具有视觉-语言基础模型的开放域适应

Jul, 2023

具有视觉-语言基础模型的开放域适应

Open-Set Domain Adaptation with Visual-Language Foundation Models

Qing Yu, Go Irie, Kiyoharu Aizawa

TL;DR无监督域自适应对标记数据集域与无标记数据集域之间的知识转移非常有效，开放集域自适应解决了目标域中可能存在的未知类别问题，这项工作探索了使用CLIP来应用于开放集域自适应的通用方法，并通过熵优化策略提高了模型性能，提供了在多个基准测试上最新的结果，证明了其在解决目标域适应问题中的有效性。

Abstract

unsupervised domain adaptation (UDA) has proven to be very effective in transferring knowledge obtained from a source domain with labeled data to a target domain with unlabeled data. Owing to the lack of labeled data in the target domain and the possible presence of unknown classes,

发现论文，激发创造

面向开放集领域自适应的可继承模型

在没有使用带标签源数据集的情况下，提出了一种新颖的领域适配范式，其中源培训模型被用于实现适应。该方法包括一种知识继承度量方法，以及一种可实现适应的继承模型选择方法。在视觉识别任务中进行综合实验评估，取得了最先进的开放域适配性能。

Apr, 2020

基于基础模型的通用领域适应

基于基础模型（如CLIP或DINOv2），本文通过全面实证研究最新的通用域自适应方法，发现现有方法往往无法超越基准线表现；作者提出了一种简单的基于目标数据提炼的方法，并在所有通用分类率基准测试中实现了一致的改进，提出了新的评价指标UCR来解决使用现有的H-score度量时遇到的阈值敏感问题。

May, 2023

基于冻结多模式基础模型的无源域自适应

源无关领域适应 (SFDA) 旨在适应一个源模型到目标领域，只能访问标记有监督源领域的预先训练的模型和无标记目标培训数据。我们首次探索了富含异构知识的现成视觉-语言多模态模型 (例如 CLIP) 的潜力，提出了一种新颖的蒸馏多模态基础模型 (DIFO)方法来解决现有方法中不可避免的错误问题，并通过两个步骤的交替来使其任务特定化，实验结果表明 DIFO 显著优于现有的替代方法。

Nov, 2023

将视觉-语言模型的固有知识与无监督领域自适应相结合的自知识蒸馏

无监督领域自适应(UDA)通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集，克服了标记数据的繁琐工作。本文结合UDA获得的知识与视觉-语言模型的内在知识。通过视觉-语言模型生成源数据集和目标数据集的零样本预测，调整分布以凸显获胜概率，同时使用源数据和目标数据以保持相对置信度。我们通过传统的领域自适应方法和自知识蒸馏法结合实现对源数据集的知识获取，并将该方法与一种渐进源域扩展策略(GSDE)相结合，结果表明零样本预测也有益处。我们在三个基准测试集(OfficeHome、VisDA和DomainNet)上进行实验和消融研究，超过了最先进的方法，并在消融研究中展示了我们算法不同部分的贡献。

Dec, 2023

统一语言驱动的零样本领域自适应

提出了一种新的任务设置——统一的语言驱动零样本领域适应(ULDA)，使得单个模型能够在没有显式域标识知识的情况下适应多样的目标领域。通过在多个视觉层次上对齐模拟特征和目标文本、保留不同区域表示之间的语义相关性以及校正模拟和真实目标视觉特征之间的偏差，该框架在两个场景下实现了竞争性的性能，展示了其优越性和泛化能力。

Apr, 2024

由视觉和视觉语言预训练引导的无源域自适应

灵活的源免领域自适应（SFDA）框架，通过融合预训练网络，提升了适应性能，并能成功整合现有的SFDA方法。

May, 2024

OpenDAS: 开放词汇切分的领域适应

我们提出了一种基于视觉语言模型的领域自适应方法，通过结合参数高效的提示微调和三元组损失训练策略，提高了开放词汇的普适性，并适应了视觉领域，改善了开放词汇分割任务中的性能。

May, 2024

CLIP驱动的无监督领域自适应

通过直接利用CLIP进行领域间差异度量，提出了一种新颖的以语言为导向的无监督域自适应方法CLIP-Div，通过收集到的领域不可知分布度量领域差异并使用语言引导校准目标伪标签，从而有效减小领域差距并提高模型的泛化能力，实验证明此方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均表现优于基于CNN的现有方法。

Jul, 2024

利用视觉-语言预训练的无监督领域适应

本文解决了无监督领域适应 (UDA) 中的两个关键挑战，尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD)，利用VLP模型作为教师模型来指导目标领域的学习，从而实现了业界领先的性能。此外，提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性，显著提高了效率。

Aug, 2024

基于单一视觉-语言嵌入的领域适应

本研究针对领域适应过程中的目标数据获取困难问题，提出了一种新的基于单一视觉-语言嵌入的方法。该方法通过对低级源特征的仿射变换进行优化，实现了一种特征增强方法，从而有效利用了多种视觉风格进行零样本和单样本无监督领域适应。实验表明，所提方法在语义分割任务中超过了相关基线，展现了其有效性。

Oct, 2024