TextPSG: 从文本描述生成全景场景图
介绍了一项新的问题任务,即基于全景分割生成全景场景图(PSG);创建了一个高质量 PSG 数据集用于基准测试,并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线;探讨了未来的挑战和发展方向。
Jul, 2022
通过建立综合的真实世界视觉感知系统,我们提出并研究了一个称为全景场景图生成(PVSG)的新问题。PVSG 与现有的视频场景图生成(VidSGG)问题相关,后者侧重于视频中的人与物体之间的时间交互,并基于边界框进行实体识别。然而,边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节,而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别,以促进整体场景理解。为了推动这一新领域的研究,我们贡献了 PVSG 数据集,其中包含 400 个视频(289 个第三人称视频 + 111 个自我中心视频),包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法,并分享了未来工作的有用设计实践。
Nov, 2023
在本文中,我们介绍了一种名为 4D Panoptic Scene Graph(PSG-4D)的新表示方法,用于在动态的四维世界中桥接原始视觉数据和高层次视觉理解。我们构建了一个富注释的 PSG-4D 数据集,并提出了 PSG4DFormer 模型,该模型可以预测全景分割掩码、跟踪掩码并通过关系组件生成相应的场景图。我们的方法在新数据集上进行了广泛实验,表明它可以作为 PSG-4D 未来研究的一个强有力的基准。最后,我们提供了一个真实世界的应用示例,以展示如何通过将大型语言模型整合到我们的 PSG-4D 系统中来实现动态场景理解。
May, 2024
从自然语言描述中学习场景图已被证明是生成场景图的一种廉价且有前途的方法。为了解决从非结构化标题数据中提取有意义的关系三元组、从解析过的三元组中定位未定位对象的模糊问题以及标题数据的稀疏性和偏向性等问题,我们提出了一个简单而有效的框架 GPT4SGG,通过综合和区域特定的叙述来合成场景图,从而显著提高了在图像 - 标题数据上训练的 SGG 模型的性能。我们相信这项开创性的工作可以激发进一步研究语言模型的视觉推理能力。
Dec, 2023
利用大型语言模型,提出了一种名为 Vision-Language Prompting (VLPrompt) 的模型,通过结合图像和语言信息,通过基于注意机制的提示网络实现精确的关系预测;实验证明,VLPrompt 显著优于现有 PSG 数据集上的最先进方法,证明了整合语言信息和缓解关系的长尾问题的有效性。
Nov, 2023
本文提出了一种通过图像 - 句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021
本文提出了一种基于 Pair Proposal Network (PPN) 的新型架构 Pair then Relation (Pair-Net),利用矩阵学习器 (matrix learner) 来过滤稀疏的主语和宾语之间的关系,通过实验分析得到了新的最佳 PSG 表现结果,并超越了之前的 PSGFormer。
Jul, 2023
通过测量主题对象对之间的谓词预测风险,以及学习不变的谓词表示嵌入,我们提出了一种新的框架来推断潜在的有偏见注释并将其自适应地转移为一致的注释,从而显著提高了基准模型的性能,达到了最新的最佳表现,并在 Panoptic 场景图生成数据集上展示了很好的泛化和有效性。
Oct, 2023
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本文提出了一种名为全景叙事基础的新型任务,包括新的实验框架、地面真值和指标,并提出了一个强大的基线方法。文章提出了一种算法,将分布式叙事注释传输到 MS COCO 数据集的普透明分割的特定区域。通过使用分割,文中还以精细的层次接近视觉基础问题,并通过包括全景类别来实现图像的内在语义丰富度。
Sep, 2021