Jul, 2024

OpenPSG: 大型多模态模型实现的开放式全景场景图生成

TL;DR本研究旨在通过利用大型多模态模型(LMMs)实现自适应关系预测的开放场景图生成任务(OpenPSG),通过引入关系查询变压器以有效提取对象对的视觉特征并估计它们之间的关系存在,然后通过滤除无关的对象对来提高预测效率,在Panoptic Scene Graph Generation (PSG) 中自适应地执行开放集关系预测,实验证明我们的方法在开放集关系预测和全景场景图生成方面取得了最先进的性能。