DAP:面向领域感知的视觉与语言导航提示学习
提出了一种基于提示的上下文和领域感知的预训练框架(PANDA),用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题,并通过对比学习进一步优化预训练模型。实验结果表明,PANDA 在 R2R 和 REVERIE 任务上优于之前的最先进方法。
Sep, 2023
本文提出了一种新颖的无监督领域自适应学习范式 —— 通过提示学习的领域自适应 (DAPL),通过嵌入域信息和利用预训练的视觉 - 语言模型进行分类,此方法在多个领域的基准测试数据上表现优异,并且训练效率高、易于实现。
Feb, 2022
利用大规模预训练视觉 - 语言模型的知识进行领域不可知的相互提示,通过互相对齐视觉和文本嵌入来利用领域不变的语义,并通过语义一致性损失和实例差异对齐损失进行规则化,实验证明 Domain-Agnostic Mutual Prompting(DAMP)相较于现有方法在三个无监督领域自适应基准上具有优势。
Mar, 2024
使用 AD-CLIP 解决图像领域适应问题,通过在 prompt 空间中提取图像风格和内容信息,采用标准的有监督对比学习和最小熵策略来对齐源领域和目标领域,同时提出跨领域风格映射网络来生成领域无关的标记,实验证明了 AD-CLIP 的有效性。
Aug, 2023
大规模视觉语言模型(VLMs)在自然视觉任务中表现出色,推动跨领域的研究者探索特定领域的 VLMs。然而,构建强大的特定领域 VLMs 需要大量的注释数据、大量的电能和计算资源,这些主要是工业界可用的,却制约了学术界对 VLMs 的研究。为了解决这个挑战,促进可持续和公平的 VLMs 研究,我们提出了广义领域提示学习(GDPL)框架。GDPL 通过小规模的特定领域基础模型和最少的提示样本,使 VLMs 的强大识别能力从自然视觉转移到特定领域,而无需大量数据或资源。通过四元网络,GDPL 利用特定领域的基础模型和最少的提示样本为语言分支赋予领域知识,揭示特定领域视觉特征与自然视觉上下文嵌入之间的跨模态关系。同时,GDPL 通过生成的视觉提示特征的分层传导,将视觉分支引向特定领域,建立与视觉语言关系匹配的基础。此外,为了充分发挥 VLMs 的领域自适应潜力,我们引入了一种新颖的低秩自适应方法。对遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的大量实验证明了 GDPL 的有效性,并展示了在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的 VLMs 研究铺平了道路,消除了学术界与工业界之间的障碍。
May, 2024
通过学习大规模数据的知识,预训练的视觉 - 语言模型(VLMs)在各种下游任务中表现出色。本文提出了分布感知的提示微调(DAPT),通过对齐两种模态之间的特征空间,并对每种模态的嵌入进行良好排列,显著改善了模型的泛化能力。
Sep, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
通过使用深度视觉提示以解决域不变性问题,结合语言提示以确保类别可分离性,以及自适应权重机制来平衡域不变性和类别可分离性,本文介绍了一种新的提示学习策略,并通过广泛实验证明深度视觉提示有效提取域不变特征,显著提高深度模型的泛化能力,在三个数据集上取得了最先进的性能。
Apr, 2024
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
Aug, 2023
通过解耦关注力,提出了一种新的方法 Decoupled Prompt Learning (DPL) 来增强 prompt learning 的泛化能力,并在多个基准测试中取得了最先进的性能。
Aug, 2023