LaViP: 语言驱动的视觉提示
本文介绍了一种软提示学习的方法,用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离,进而提高模型性能,并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明,该方法显著优于所有先前的软提示工作,并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。
Oct, 2022
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
当前关于高效构建大型视觉语言模型的解决方案采用两步骤范式:将预训练视觉编码器的输出投射到预训练语言模型的输入空间作为视觉提示,然后通过端到端参数高效调优(PEFT)将模型转移到下游视觉语言任务。然而,这一范式仍然存在低效性,因为它显著增加了语言模型的输入长度。本文提出了一种新颖的方法,称为内存空间视觉提示(MemVP),与将视觉提示集成到输入不同,我们将视觉提示视为有助于语言模型处理与视觉信息相关任务的附加知识。通过在语言模型的前馈网络(FFN)中加入视觉提示与权重的连接,MemVP 方法大大减少了微调视觉语言模型的训练时间和推理延迟,并且在各种视觉语言任务和语言模型上的实验证明其性能超越了先前的 PEFT 方法。
May, 2024
利用视觉提示进行类别可分性和使用文本适配器进行任务适应的结合对于适应性和泛化性至关重要;我们提出了一种自适应集成方法,根据迁移难度有效地结合了 VLMs 的通用知识和任务特定知识,该方法在广泛的基准测试中始终优于所有基准线,尤其是在未知任务上表现出了其有效性。
Nov, 2023
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024
通过使用深度视觉提示以解决域不变性问题,结合语言提示以确保类别可分离性,以及自适应权重机制来平衡域不变性和类别可分离性,本文介绍了一种新的提示学习策略,并通过广泛实验证明深度视觉提示有效提取域不变特征,显著提高深度模型的泛化能力,在三个数据集上取得了最先进的性能。
Apr, 2024
本文通过引入合成文本图像作为类别相关的视觉提示,探索了视觉 - 语言模型中视觉提示的作用,并提出了一种 LoGoPrompt 方法,该方法在少样本学习、从基础到新领域的泛化以及领域泛化方面表现出一致优于现有方法的实验结果。
Sep, 2023