逐步多模态条件提示调整
本研究通过将多尺度图像特征集成到提示中,提出了一种对于分布偏移具有鲁棒性的提示学习方法,实验结果表明,这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。
Apr, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持PLMs参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。
Jun, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过学习大规模数据的知识,预训练的视觉-语言模型(VLMs)在各种下游任务中表现出色。本文提出了分布感知的提示微调(DAPT),通过对齐两种模态之间的特征空间,并对每种模态的嵌入进行良好排列,显著改善了模型的泛化能力。
Sep, 2023
通过使用Token-wise Adaptive for Multi-modal Prompt Learning (APLe)在顺序方式中对视觉和语言两个模态的提示进行调整,APLe解决了视觉-语言模型中的挑战,提高了提示学习的性能,具有与最先进技术相媲美的泛化性能。
Jan, 2024
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉-语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在11个数据集上表现优于现有方法。
Mar, 2024
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024
我们提出了一种框架,通过使用候选标签对VLM进行prompt learning,根据模型输出和类别后验预测,结合可学习和手工构建的提示方式来消除标签的歧义,并引入了不同的训练目标,进一步提高了性能。
Jul, 2024
该研究解决了现有视觉语言模型在缺失模态下的不足,提出了一种新颖的多步骤自适应提示学习(MuAP)框架,旨在生成多模态提示并进行逐步调优。研究表明,该方法显著提高了模型在多个基准数据集上的表现,推动了模态间知识的有效学习。
Sep, 2024
本研究解决了视觉语言模型提示调整中手工和模板化提示缺乏通用性的问题。通过将软提示与手工提示视为文本模态的双重视角,并最大化它们的互信息,研究提出了一种新的方法来增强任务特定信息和一般语义信息的结合。此外,引入的视觉模态类增广技术显著提升了对未见类的鲁棒性。该方法在多个基准测试中的评估结果表明,其在特定任务性能和一般能力方面均具竞争力。
Oct, 2024