弱监督视觉语义解析

CVPRJan, 2020

Weakly Supervised Visual Semantic Parsing

Alireza Zareian, Svebor Karaman, Shih-Fu Chang

TL;DR本文提出了一个广义的场景图生成模型 —— 视觉语义解析，并基于动态、注意力机制的二分图传递框架设计了关注于图节点和边的视觉语义解析网络 (VSPNet)，同时通过一种全新的图对齐算法，建立了第一个基于图的弱监督学习框架。大量实验证明 VSPNet 优于弱监督基准，而且速度是基准的数倍，因此是训练时效和性能平衡的一个不错的选择。

Abstract

scene graph generation (SGG) aims to extract entities, predicates and their semantic structure from images, enabling deep understanding of visual content, with many applications such as visual reasoning and image retrieval. Nevertheless, existing SGG methods require millions of manuall

scene graph generation visual semantic parsing vspnet weakly supervised learning graph alignment

发现论文，激发创造

通过大型语言模型进行弱监督下的细粒度场景图生成

通过利用大型语言模型和链式思维及上下文少样本学习策略，我们提出了一种新方法：用于弱监督场景图生成的大型语言模型，可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐，有效地解决语义过度简化和低密度场景图的问题，实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升，且能够以少量的训练图片进行有效的模型训练。

Oct, 2023

基于原型的嵌入网络用于场景图生成

该研究提出了一种基于原型的嵌入网络（PE-Net），使用基于原型的紧凑和独特表示模型实体 / 谓词，并在常见嵌入空间中建立实体对和谓词的匹配关系以进行关系识别，Extensive 的实验表明，该方法在 SGG 上获得更好的关系识别能力，实现了 Visual Genome 和 Open Images 数据集上的新的最优性能。

Mar, 2023

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

减少偏差的模型生成场景图

提出了一种基于自学知识的场景图生成模型训练方案，使用两个关系分类器减少标注偏差和稀疏标注造成的影响，并在多个标准场景图生成任务中观察到了显著的相对改进。

Aug, 2020

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

SGTR：基于 Transformer 的端到端场景图生成

提出了一种基于 Transformer 的端到端框架，利用结构化谓语生成器开发了一种新的实体感知的谓语表示方法，设计了图组装模块以推断适应性的进行双部分场景图形的构建，并在两个具有挑战性的基准测试中取得了最先进或可比的性能，并提高了推理效率。

Dec, 2021

全景视频场景图生成

通过建立综合的真实世界视觉感知系统，我们提出并研究了一个称为全景场景图生成（PVSG）的新问题。PVSG 与现有的视频场景图生成（VidSGG）问题相关，后者侧重于视频中的人与物体之间的时间交互，并基于边界框进行实体识别。然而，边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节，而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别，以促进整体场景理解。为了推动这一新领域的研究，我们贡献了 PVSG 数据集，其中包含 400 个视频（289 个第三人称视频 + 111 个自我中心视频），包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法，并分享了未来工作的有用设计实践。

Nov, 2023

基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成

通过视觉语言辅助伪标记，我们提出了 3D-VLAP，一种弱监督的三维场景图生成方法，能够对三维点云场景进行语义对齐并生成场景图，从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。

Apr, 2024