PVLR：基于提示的视觉语言表示学习用于多标签图像识别

Jan, 2024

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition

Hao Tan, Zichang Tan, Jun Li, Jun Wan, Zhen Lei

TL;DR在这篇论文中，我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning（PVLR）框架，通过双提示策略和交互融合模块，更好地利用了语言模型的能力，以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。

Abstract

multi-label image recognition is a fundamental task in computer vision. Recently, vision-language models have made notable advancements in this area. However, previous methods often failed to effectively leverage

multi-label image recognition vision-language models prompt-driven visual-linguistic representation learning dual-prompting strategy interaction and fusion module

发现论文，激发创造

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

基于 LLM 增强的提示调整的无数据多标签图像识别

提出了一种无需训练数据的多标签图像识别新框架，利用预训练大型语言模型（LLM）的知识学习提示，使预训练的视觉 - 语言模型（VLM）如 CLIP 适应多标签分类。通过向 LLM 提问获取关于对象的特性和背景的综合知识，为学习提示提供宝贵的文本描述。然后，通过考虑多标签依赖性，提出了一种层次化的提示学习方法，在对象具有相似属性或更有可能共现时，共享特定类别提示标记的子集。由于 CLIP 在视觉和语义上具有显著的对准性，从文本描述学习到的层次化提示被应用于推理过程中的图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新途径。在三个公共数据集（MS-COCO、VOC2007 和 NUS-WIDE）上进行的大量实验证明，我们的方法比现有方法取得更好的结果，尤其是在 MS-COCO 上的零样本多标签识别方法的 mAP 上超过 4.7%。

Mar, 2024

利用 LLMs 自动化零射视觉识别的元提示

通过 Meta-Prompting for Visual Recognition (MPVR) 方法，仅凭目标任务的简短自然语言描述和相关类别标签的最小信息输入，自动产生一组多样的类别特定提示，从而实现强大的零样本分类器。在多个不同领域的流行的零样本图像识别基准上，使用多个 LLMs 和 VLMs 测试，MPVR 可以有效地推广，比 CLIP 提高了最高 19.8％和 18.2％（平均 20 个数据集上分别为 5.0％和 4.5％），依赖于 GPT 和 Mixtral LLMs。

Mar, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

视觉语言理解的情境提示学习

本文提出一种叫做上下文提示学习的框架，用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示，通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。

Jul, 2023

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。

Oct, 2022

VLPrompt：视觉 - 语言提示用于全景场景图生成

利用大型语言模型，提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型，通过结合图像和语言信息，通过基于注意机制的提示网络实现精确的关系预测；实验证明，VLPrompt 显著优于现有 PSG 数据集上的最先进方法，证明了整合语言信息和缓解关系的长尾问题的有效性。

Nov, 2023

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

理解与改善视觉提示：标签映射视角

本论文讨论了思考视觉提示、标签映射和迁移学习等一系列问题，提出了 ILM-VP 和 CLIP-VP 等新的提示方法，并在多个数据集上实现了进一步提升精度的效果。

Nov, 2022

视觉与语言模型之间的交互提示：基于知识的视觉推理

本文提出了一个名为 IPVR 的交互提示视觉推理框架，用于少样本的基于知识的视觉推理，它包含 see，think 和 confirm 三个阶段，利用视觉感知模型和大规模语言模型进行推理，可实现对推理过程的全透明跟踪和解释。

Jan, 2023