理解与改善视觉提示:标签映射视角
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本文针对视觉 - 语言模型中的文本提示有限,现有视觉提示方法性能或训练过程不稳定的问题,提出了一种新的渐进式视觉提示结构(ProVP),并结合对比特征重构,最终获得了在 11 个基准数据集上的最佳性能。
Apr, 2023
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
本文旨在研究使用预训练语言模型(Pre-trained language models,PLMs)作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting(DVP)的新型转移学习方法,通过搜索算法,在保持 PLMs 参数完整性的情况下,有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证,DVP 在效率和性能方面都具有优势,并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。
Jun, 2023
利用贝叶斯框架中的 Prompt 学习方法,通过建模数据相关先验,减轻少样本学习中的过拟合问题,提高提示信息对未知样例的适应性,并展示相对现有方法在基准数据集上显著性能改进的统计结果。
Jan, 2024
本研究提出了多模态提示学习 (MaPLe) 的方法,旨在通过不同的早期阶段分别学习视觉和语言分支的独立提示,以逐步建模分阶段的特征关系,并促进视觉 - 语言提示之间的强耦合,以改善 CLIP 的下游任务结果。结果表明,该方法具有良好的性能和广泛的应用前景。
Oct, 2022
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
提出了一种无需训练数据的多标签图像识别新框架,利用预训练大型语言模型(LLM)的知识学习提示,使预训练的视觉 - 语言模型(VLM)如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识,为学习提示提供宝贵的文本描述。然后,通过考虑多标签依赖性,提出了一种层次化的提示学习方法,在对象具有相似属性或更有可能共现时,共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性,从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的大量实验证明,我们的方法比现有方法取得更好的结果,尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。
Mar, 2024
通过 Meta-Prompting for Visual Recognition (MPVR) 方法,仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入,自动产生一组多样的类别特定提示,从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上,使用多个 LLMs 和 VLMs 测试,MPVR 可以有效地推广,比 CLIP 提高了最高 19.8%和 18.2%(平均 20 个数据集上分别为 5.0%和 4.5%),依赖于 GPT 和 Mixtral LLMs。
Mar, 2024
在这篇论文中,我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning(PVLR)框架,通过双提示策略和交互融合模块,更好地利用了语言模型的能力,以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。
Jan, 2024