双对齐下的上下文感知视觉-语言模型提示调优
本研究提出了一种基于多任务学习的视觉语言模型Prompt Tuning的方法SoftCPT,用于同时优化多个Few-Shot任务的任务共享元网络,结果表明该模型能够通过软共享模式下的多任务学习实现比 CoOp 更好的结果。
Aug, 2022
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
通过学习大规模数据的知识,预训练的视觉-语言模型(VLMs)在各种下游任务中表现出色。本文提出了分布感知的提示微调(DAPT),通过对齐两种模态之间的特征空间,并对每种模态的嵌入进行良好排列,显著改善了模型的泛化能力。
Sep, 2023
提出了一种基于提示的上下文和领域感知的预训练框架(PANDA),用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题,并通过对比学习进一步优化预训练模型。实验结果表明,PANDA在R2R和REVERIE任务上优于之前的最先进方法。
Sep, 2023
通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题,并在测试中取得明显优于其他方法的结果。
Apr, 2024
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
基于大型语言模型,使用前期训练的上下文知识和少量的训练数据来自定义大视觉语言模型到新的领域的快速学习方法,通过结合隐式和显式因素,提高模型特征表示,并通过不同的质量分布来确保可处理无关或噪声元素,从而使得 Unbalanced Optimal Transport (UOT) 理论与图像增强的特点相融合,同时在保证样本合理距离的情况下扩展训练样本池,通过在少样本分类和适配器设置等广泛实验证明了我们模型的优越性。
Jul, 2024
我们提出了一种框架,通过使用候选标签对VLM进行prompt learning,根据模型输出和类别后验预测,结合可学习和手工构建的提示方式来消除标签的歧义,并引入了不同的训练目标,进一步提高了性能。
Jul, 2024