Nov, 2023
VLPrompt:视觉 - 语言提示用于全景场景图生成
VLPrompt: Vision-Language Prompting for Panoptic Scene Graph Generation
Zijian Zhou, Miaojing Shi, Holger Caesar
TL;DR利用大型语言模型,提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型,通过结合图像和语言信息,通过基于注意机制的提示网络实现精确的关系预测;实验证明,VLPrompt 显著优于现有 PSG 数据集上的最先进方法,证明了整合语言信息和缓解关系的长尾问题的有效性。