将视觉-语言模型的固有知识与无监督领域自适应相结合的自知识蒸馏

Dec, 2023

将视觉-语言模型的固有知识与无监督领域自适应相结合的自知识蒸馏

Combining inherent knowledge of vision-language models with unsupervised domain adaptation through self-knowledge distillation

HTML

PDF

Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada

TL;DR无监督领域自适应(UDA)通过利用标记的源数据集并将其知识转移到相似但不同的目标数据集，克服了标记数据的繁琐工作。本文结合UDA获得的知识与视觉-语言模型的内在知识。通过视觉-语言模型生成源数据集和目标数据集的零样本预测，调整分布以凸显获胜概率，同时使用源数据和目标数据以保持相对置信度。我们通过传统的领域自适应方法和自知识蒸馏法结合实现对源数据集的知识获取，并将该方法与一种渐进源域扩展策略(GSDE)相结合，结果表明零样本预测也有益处。我们在三个基准测试集(OfficeHome、VisDA和DomainNet)上进行实验和消融研究，超过了最先进的方法，并在消融研究中展示了我们算法不同部分的贡献。

Abstract

unsupervised domain adaptation (UDA) tries to overcome the tedious work of labeling data by leveraging a labeled source dataset and transferring its knowledge to a similar but different target dataset. On the other hand, current vision-language models exhibit astonishing →

发现论文，激发创造

统一无监督域自适应与零样本视觉识别

该论文提出了基于领域自适应的跨域分类问题，通过联合子空间的学习，使用有标签样本辅助实现跨域特征投影不变性，并结合了一种监督的局部保持投影(SLPP)技术，同时在无监督和零样本学习条件下，在三个跨域自适应基准数据集上实现了最先进的结果。

Mar, 2019

基于假设传递和标签传递的源数据缺失无监督域自适应

本文针对数据保护的要求，提出了一种基于分类模型训练的无监督领域自适应方法：Source HypOthesis Transfer(简称SHOT)，通过提取目标领域的特征并利用同一假设对原数据和目标数据进行映射，同时利用半监督学习来提高目标域中置信度较低的样本的准确性，实现了卓越的性能及实用价值。

Dec, 2020

先验知识指导的无监督域自适应

本文提出一种基于知识引导的无监督领域自适应（KUDA）方法，通过利用目标域的先验知识，将该先验知识应用于模型生成伪标签的改进中，从而提高自训练阶段的性能。

Jul, 2022

具有视觉-语言基础模型的开放域适应

无监督域自适应对标记数据集域与无标记数据集域之间的知识转移非常有效，开放集域自适应解决了目标域中可能存在的未知类别问题，这项工作探索了使用CLIP来应用于开放集域自适应的通用方法，并通过熵优化策略提高了模型性能，提供了在多个基准测试上最新的结果，证明了其在解决目标域适应问题中的有效性。

Jul, 2023

视觉语言模型的领域泛化鲁棒微调

在具有有限训练数据并在分布转变下无法有效推广的情况下，传统的迁移学习方法效果有限。然而，最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题，在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法，并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明，在训练数据供应的各个级别上，与只有视觉的模型相比，少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好，这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。

Nov, 2023

将大型语言模型中的领域特定内容与知识图谱融合，以增强零样本目标状态分类

本研究探讨了大型语言模型（LLM）在通过语义嵌入生成和提供领域特定信息方面的潜力，并在基于视觉的零样本目标状态分类任务中将LLM整合到一种流程中。研究结果表明，使用LLM嵌入与通用预训练嵌入相结合，可以显著提高性能，并通过与竞争模型的比较分析展示了所提出方法所达到的最新性能。

Mar, 2024

双重记忆网络：视觉语言模型的通用适应方法

通过引入双重记忆网络，本文介绍了一种全能的适应性方法，可以在零样本调整、少样本调整和无需训练的少样本调整三种设置下有效工作。

Mar, 2024

统一语言驱动的零样本领域自适应

提出了一种新的任务设置——统一的语言驱动零样本领域适应(ULDA)，使得单个模型能够在没有显式域标识知识的情况下适应多样的目标领域。通过在多个视觉层次上对齐模拟特征和目标文本、保留不同区域表示之间的语义相关性以及校正模拟和真实目标视觉特征之间的偏差，该框架在两个场景下实现了竞争性的性能，展示了其优越性和泛化能力。

Apr, 2024

CLIP驱动的无监督领域自适应

通过直接利用CLIP进行领域间差异度量，提出了一种新颖的以语言为导向的无监督域自适应方法CLIP-Div，通过收集到的领域不可知分布度量领域差异并使用语言引导校准目标伪标签，从而有效减小领域差距并提高模型的泛化能力，实验证明此方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均表现优于基于CNN的现有方法。

Jul, 2024

利用视觉-语言预训练的无监督领域适应

本文解决了无监督领域适应 (UDA) 中的两个关键挑战，尤其是探索视觉-语言预训练 (VLP) 模型的潜力。提出了一种新方法——跨模态知识蒸馏 (CMKD)，利用VLP模型作为教师模型来指导目标领域的学习，从而实现了业界领先的性能。此外，提出的残差稀疏训练 (RST) 技术通过最小调整VLP模型参数来降低存储开销与模型部署的复杂性，显著提高了效率。

Aug, 2024