跨域泛化的过渡式视觉 - 语言提示学习
本论文提出了基于 prompt learning 的全新方法 DoPrompt,利用 domain prompts 嵌入源域的知识进行目标域的预测,针对视觉转换器 (ViT) 在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高,是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。
Aug, 2022
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
大型预训练视觉语言模型(VLMs)在下游任务中展现出令人印象深刻的零 - shot 能力,但人工设计的提示对特定领域不够优化。本文提出了一种用于下游任务的软提示方法,通过在特定域数据上进行微调,将软提示作为学习向量。我们从生成的角度重构了提示学习框架,并提出了一种简单而高效的域泛化(DG)任务方法,即软提示生成(SPG)。在训练阶段,我们引入了每个领域的软提示标签,以融合生成模型的领域知识。在推理阶段,生成模型的生成器被用来获取未知目标域的实例特定软提示。对三个域泛化任务的五个领域泛化基准进行的大量实验证明了我们提出的 SPG 方法达到了最先进的性能。代码将很快提供。
Apr, 2024
我们提出了一种名为 Prompt-driven Latent Domain Generalization(PLDG)的新型无标签领域通用化(DG)框架,通过无监督领域发现和提示学习,实现了对医学图像分类的领域通用化,并在三个医学图像分类任务和一个去偏任务上展开了广泛实验,证明了我们的方法在不依赖领域标签的情况下实现了与传统 DG 算法相媲美甚至更好的性能。
Jan, 2024
通过使用四元数网络,利用专用领域模型中的领域特定视觉特征引导通用上下文嵌入的转换来实现从通用化到专用化领域的有效识别能力转移,同时采用层次化方法生成视觉提示特征并分析层次化语言提示特征和领域专用视觉特征之间的互模态关系,从而实现在特定领域中有效挖掘互模态关系,促进领域特定的视觉语言对比学习,并通过在特定领域的数据集上进行广泛实验,证明我们的方法在提示学习方面取得了最新的最好的结果。
Dec, 2023
通过引入低成本提示调整范式来学习特定领域视觉提示,我们提出了一种新颖且模型无关的领域感知提示学习(DAP)框架,以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐,并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示,DAP 相比现有的最先进方法具有明显的优势。
Nov, 2023
提出了一种基于提示的上下文和领域感知的预训练框架(PANDA),用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题,并通过对比学习进一步优化预训练模型。实验结果表明,PANDA 在 R2R 和 REVERIE 任务上优于之前的最先进方法。
Sep, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
提出一种在测试时使用少量无标签数据进行模型适应以应对分布偏移的方法,通过利用预训练模型和源域的相关信息从有限数据中提取领域知识,并通过建立知识库、领域特定提示生成器、引导模块、领域感知对比损失和元学习等技术实现领域知识的提取。在多个基准测试中验证了该方法,表明该方法在领域知识提取方面优于之前的工作。
May, 2024