LaViP: 语言驱动的视觉提示
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在12个流行的分类数据集上创造了82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持PLMs参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与VL任务相结合的需求。
Jun, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
利用双重对齐提示调整(DuAl-PT),结合大规模视觉语言模型和预训练大型语言模型,在少样本识别和基于新样本泛化上取得了卓越的性能,为未来研究提供了强有力的基准。
Sep, 2023
通过重新参数化低秩提示(RLP),我们设计了一种新型提示,用于高效和有效地适应基于视觉和语言的模型,并显著增加了传统提示调整的平均下游准确性,仅使用0.5K的参数。
Dec, 2023
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在4个基准测试上进行了广泛评估。
Jan, 2024
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信息相关任务的附加知识。通过在语言模型的前馈网络(FFN)中加入视觉提示与权重的连接,MemVP方法大大减少了微调视觉语言模型的训练时间和推理延迟,并且在各种视觉语言任务和语言模型上的实验证明其性能超越了先前的PEFT方法。
May, 2024
本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练(RPP),通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签,来提升模型的适应能力和泛化性能。实验表明,RPP在多个基准测试中表现出色,证明了其在各类视觉识别任务中的强大传递能力。
Sep, 2024