CVPRApr, 2024

从像素到图形:利用视觉语言模型进行开放式场景图生成

TL;DR基于序列生成的新型开放词汇的场景图生成框架,通过使用视觉语言预训练模型和显式关系建模知识,实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。