领域泛化的 Prompt 视觉 Transformer
通过使用深度视觉提示以解决域不变性问题,结合语言提示以确保类别可分离性,以及自适应权重机制来平衡域不变性和类别可分离性,本文介绍了一种新的提示学习策略,并通过广泛实验证明深度视觉提示有效提取域不变特征,显著提高深度模型的泛化能力,在三个数据集上取得了最先进的性能。
Apr, 2024
本文探讨了基于视觉转换器(vision transformers)进行生成性知识转移的方法,通过引入可学习的提醒(prompt)标记和设计,成功地实现了良好的图像生成质量和知识转移。
Oct, 2022
使用深度学习的皮肤病变识别已经取得了显著进展,但是最近的研究发现,深度神经网络可能过度依赖与疾病无关的图像特征(如暗角,密集毛发),导致在未见环境下泛化能力差。为了解决这个问题,我们提出了一种新颖的域泛化方法 EPVT,它利用嵌入提示来协同学习来自不同领域的知识,在皮肤病变识别中展现出了更优越的泛化性能。
Apr, 2023
提出一种在测试时使用少量无标签数据进行模型适应以应对分布偏移的方法,通过利用预训练模型和源域的相关信息从有限数据中提取领域知识,并通过建立知识库、领域特定提示生成器、引导模块、领域感知对比损失和元学习等技术实现领域知识的提取。在多个基准测试中验证了该方法,表明该方法在领域知识提取方面优于之前的工作。
May, 2024
本篇论文研究了采用提示(prompt)对图片进行分类的方法,通过引入多模质询与 fine-tuning 相结合的方式,提高了图片分类的性能和领域适应性。
Apr, 2023
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零 - shot 能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。
Apr, 2024
通过使用四元数网络,利用专用领域模型中的领域特定视觉特征引导通用上下文嵌入的转换来实现从通用化到专用化领域的有效识别能力转移,同时采用层次化方法生成视觉提示特征并分析层次化语言提示特征和领域专用视觉特征之间的互模态关系,从而实现在特定领域中有效挖掘互模态关系,促进领域特定的视觉语言对比学习,并通过在特定领域的数据集上进行广泛实验,证明我们的方法在提示学习方面取得了最新的最好的结果。
Dec, 2023
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
本研究提出了 S-Prompting 范式和两种方法,通过独立学习提示,从而高度减少领域增量学习(DIL)中的遗忘程度,实现了深度神经网络在连续学习中一个最典型的场景 -- 领域增量学习(DIL)中的最佳表现。
Jul, 2022
本文提出了一种基于 VLM 的开放词汇无监督领域自适应框架,并通过 Prompt Ensemble Self-Training 技术来提高领域间的图像和文本分布的转移灵活性和效率, 实验结果表明其在 10 个图像识别任务中比目前最先进的技术表现更优秀。
Jun, 2023