基于提示集成的自训练方法用于开放词汇领域自适应
我们提出了一种基于视觉语言模型的领域自适应方法,通过结合参数高效的提示微调和三元组损失训练策略,提高了开放词汇的普适性,并适应了视觉领域,改善了开放词汇分割任务中的性能。
May, 2024
在本文中,我们首先实验性地证明了无监督训练的视觉语言模型可以显著减少源域和目标域之间的分布差异,从而改善无监督域自适应的性能。然而,直接在下游无监督域自适应任务中部署这些模型的一个重要挑战是及时的工程技术,需要对源域和目标域的领域知识进行对齐,因为无监督域自适应的性能受到良好的领域不变表示的严重影响。我们进一步提出了一种基于提示的分布对齐方法(PDA),将领域知识融入到提示学习中。具体而言,PDA 采用了两支分支的提示调试范例,即基础分支和对齐分支。基础分支专注于将与类相关的表示集成到提示中,确保在不同类别之间进行区分。为了进一步减小领域差异,我们为源域和目标域构建特征库,并提出了图像引导特征调试(IFT)来使输入关注特征库,从而有效地将自我增强和跨域特征集成到模型中。通过这种方式,这两个分支可以相互促进,增强 VLM 在无监督域自适应中的适应性。我们在三个基准测试上进行了大量实验,证明了我们提出的 PDA 方法达到了最先进的性能。
Dec, 2023
利用大规模预训练视觉 - 语言模型的知识进行领域不可知的相互提示,通过互相对齐视觉和文本嵌入来利用领域不变的语义,并通过语义一致性损失和实例差异对齐损失进行规则化,实验证明 Domain-Agnostic Mutual Prompting(DAMP)相较于现有方法在三个无监督领域自适应基准上具有优势。
Mar, 2024
本论文提出了基于 prompt learning 的全新方法 DoPrompt,利用 domain prompts 嵌入源域的知识进行目标域的预测,针对视觉转换器 (ViT) 在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高,是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。
Aug, 2022
本文提出了一种新颖的无监督领域自适应学习范式 —— 通过提示学习的领域自适应 (DAPL),通过嵌入域信息和利用预训练的视觉 - 语言模型进行分类,此方法在多个领域的基准测试数据上表现优异,并且训练效率高、易于实现。
Feb, 2022
本文提出一种用于数据有效且准确实现目标领域适应的测试时适应问题解决方案 (Data-efficient Prompt Tuning,DePT),其使用镜像学习方式将交互式提示信息细化到视觉 Transformer 模型中,在测试时自适应调整模型引用的提示以提升模型对目标域的表示,且具有适用于许多测试适应问题的能力。
Oct, 2022
通过引入可学习的标记,VPA(Visual Prompt Adaptation)作为一个框架通过测试时间的自适应实现了视觉提示的普遍性,且不需要源领域信息,实验结果表明 VPA 有效提高了各种模型的历程泛化、抗干扰性和领域适应能力,以及对视觉 - 语言模型的零样本识别性能的鲁棒性改进。
Sep, 2023
通过使用深度视觉提示以解决域不变性问题,结合语言提示以确保类别可分离性,以及自适应权重机制来平衡域不变性和类别可分离性,本文介绍了一种新的提示学习策略,并通过广泛实验证明深度视觉提示有效提取域不变特征,显著提高深度模型的泛化能力,在三个数据集上取得了最先进的性能。
Apr, 2024
通过 prompt-based visual alignment (PVA) 框架中的语义信息作为显式约束,可以缓解图像中的有害领域偏见,实现零次策略转移,并在有限域数据的情况下实现跨领域学习。
Jun, 2024
无监督域自适应对标记数据集域与无标记数据集域之间的知识转移非常有效,开放集域自适应解决了目标域中可能存在的未知类别问题,这项工作探索了使用 CLIP 来应用于开放集域自适应的通用方法,并通过熵优化策略提高了模型性能,提供了在多个基准测试上最新的结果,证明了其在解决目标域适应问题中的有效性。
Jul, 2023