VLPrompt：视觉 - 语言提示用于全景场景图生成

Nov, 2023

VLPrompt：视觉 - 语言提示用于全景场景图生成

VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation

Zijian Zhou, Miaojing Shi, Holger Caesar

TL;DR利用大型语言模型，提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型，通过结合图像和语言信息，通过基于注意机制的提示网络实现精确的关系预测；实验证明，VLPrompt 显著优于现有 PSG 数据集上的最先进方法，证明了整合语言信息和缓解关系的长尾问题的有效性。

Abstract

panoptic scene graph generation (PSG) aims at achieving a comprehensive image understanding by simultaneously segmenting objects and predicting relations among objects. However, the long-tail problem among relati

panoptic scene graph generation long-tail problem vision-language prompting large language models relation prediction

发现论文，激发创造

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

语言感知的视觉与语言基础模型软提示

本文介绍了一种软提示学习的方法，用于 Vision & Language 模型。该方法通过使用第二交叉熵损失来最小化学习的软提示与手工工程提示之间的距离，进而提高模型性能，并能够训练虚拟类。在 11 个数据集上进行的广泛评估表明，该方法显著优于所有先前的软提示工作，并在大多数测试数据集上匹配和超越手工制作提示和 CLIP 的新类准确性。

Oct, 2022

LaViP: 语言驱动的视觉提示

通过语言引导的视觉提示方法，我们使视觉语言模型的视觉编码器适应下游任务，从而提高适应性和泛化性能。

Dec, 2023

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

在这篇论文中，我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning（PVLR）框架，通过双提示策略和交互融合模块，更好地利用了语言模型的能力，以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。

Jan, 2024

TextPSG: 从文本描述生成全景场景图

从纯文本描述中生成全景场景图，通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架，有效地提高了性能和鲁棒性。

Oct, 2023

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

基于多模态大语言模型的联合视觉与文本提示改善目标中心感知

使用视觉和文本提示的新方法 (VTPrompt) 提高了 Multimodal Large Language Models 在物体感知方面的能力，并在三个基准测试上表现出显著的改进。

Apr, 2024

PiTL：基于提示的弱监督视觉语言预训练的跨模态检索

本文提出了一种利用大型语言模型从图像中生成标签以进行虚实预训练，减少了对昂贵标注数据的需求，并在图片文字检索方面得到显著的效果提升。

Jul, 2023

预训练视觉语言模型中的伪提示生成，面向多标签医学图像分类

该研究介绍了一个新的提高医学图像识别性能的方法，利用预训练视觉 - 语言模型和伪提示生成来实现多标签分类和自动诊断，对比实验证明了其在多标签胸部放射图数据集上的卓越性能。

May, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023