基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成

Apr, 2024

基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成

Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling

Xu Wang, Yifan Li, Qiudan Zhang, Wenhui Wu, Mark Junjie Li...

TL;DR通过视觉语言辅助伪标记，我们提出了 3D-VLAP，一种弱监督的三维场景图生成方法，能够对三维点云场景进行语义对齐并生成场景图，从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。

Abstract

Learning to build 3D scene graphs is essential for real-world perception in a structured and rich fashion. However, previous 3d scene graph generation methods utilize a fully supervised learning manner and require a large amount of entity-level annotation data of objects and relations,

3d scene graph generation weakly-supervised learning visual-linguistic assisted pseudo-labeling cross-modal visual-linguistic model edge self-attention based graph neural network

发现论文，激发创造

基于视觉语义对齐的弱监督三维视觉定位

基于大规模视觉 - 语言模型的弱监督学习方法，利用 2D 图像和 3D 点云之间天然存在的对应关系，无需精细标注的边界框注释，通过学习文本 - 3D 对应，实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明，3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。

Dec, 2023

VL-SAT：三维语义点云场景图预测的视觉语言语义辅助训练

本文提出了一种名为 VL-SAT 的模型，通过多模态方案，以语言和视觉数据为基础，利用 Visual-Linguistic Semantics Assisted Training（VL-SAT）显著提升 3DSSG 预测模型的性能。通过有效地利用视觉语义性地训练，提高 3DSSG 预测模型的性能，进而对 3D 点云数据进行更好地解释。

Mar, 2023

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023

通过视听信息传递将自然图像场景图映射到实体化

该研究提出了一种基于图神经网络的方法，通过联合描述场景中的对象，并利用上下文信息来提高对象定位性能。

Nov, 2022

场景图生成的视觉远程监督

本文提出了一种视觉远程监督的场景图生成方法，该方法可以在无需人工标注的情况下训练场景图模型，并且进一步通过半监督的方法与人工标注的数据相结合，取得了比现有全监督模型更好的效果。

Mar, 2021

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

语言结构作为视觉场景图生成的弱监督

本文研究了在场景图生成中如何利用语言结构以及图像标题，通过弱化的监督模式提高模型性能，相比起传统的三元组监督模式，更具伸缩性且更适用于多模态数据。

May, 2021

基于伪标签辅助学习的弱监督 ALS 点云语义分割

本文提出的伪标签辅助点云分割方法，可使用非常少的弱标签 (稀疏采样的) 以较低的标注成本获得与全监督方案相同的结果，并且提出了自适应阈值策略来生成基于预测概率的伪标签进行学习。实验证明，本方法在 ISPRS 3D 语义标注基准数据集上取得了 83.7% 的整体准确率和 70.2% 的平均 F1 分数。

May, 2021