Nov, 2023

VLPrompt:视觉 - 语言提示用于全景场景图生成

TL;DR利用大型语言模型,提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型,通过结合图像和语言信息,通过基于注意机制的提示网络实现精确的关系预测;实验证明,VLPrompt 显著优于现有 PSG 数据集上的最先进方法,证明了整合语言信息和缓解关系的长尾问题的有效性。