三维室内场景语言引导的语义风格转移
研究如何从 1 或多张图像中合成逼真的室内 3D 场景,采用了基于图像的 GAN 来直接映射成高分辨率的 RGB-D 图像,及在 VLN 训练中进行空间干扰以提高成功率。
Apr, 2022
本研究基于场景重建的网格应用风格转移技术,让用户能够在虚拟现实中欣赏以喜欢的艺术家绘画风格来呈现的三维环境。研究通过对场景网格的纹理进行优化并从所有可用的输入图像上共同进行风格化,实现了一致性和稳定性风格化表现。
Dec, 2021
本文介绍了一种新的语义视图综合问题,通过使用语义标签图作为输入生成合成场景的自由视角渲染,在现有图像 / 视图综合方法的基础上,提出了一个两步方法,第一步合成可见表面的颜色和深度,第二步将它们用于在多平面图像 (MPI) 中减轻部分影像的影响,该方法在室内外场景中得到了良好的效果。
Aug, 2020
本文提出了一种高效而健壮的技术,实现了 3D 室内场景的即时密集语义分割和重建,该方法基于高效的超体素聚类方法和来自结构和对象线索的高阶约束的条件随机场,无需预先计算即可进行渐进式密集语义分割。通过对 SceneNN 和 ScanNet 数据集中的不同室内场景进行广泛评估,证明了该技术在定性和定量实验中始终能够产生最先进的分割结果。
Apr, 2018
该文研究了基于数据驱动的方法对 3D 家具模型和室内场景进行着色,并使用互联网上的室内图像进行引导。使用图像引导网格分割将模型分成不同的部分,以提高着色效果,并以马尔可夫随机场模型实现一致的着色方案。实验结果表明,该系统可以产生与室内设计师生成的结果相媲美且具有说服力的结果。
Feb, 2017
通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升,本研究旨在解决 3D 视觉语言面临的三个主要挑战,包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVerse 以及基于可扩展的场景图生成方法获取的约 2.5M 个视觉语言对,展示了 Grounded Pre-training for Scenes (GPS) 的有效性,通过在所有现有的 3D 视觉定位基准上取得了最先进的性能,并在具有挑战性的 3D 视觉语言任务的零样本迁移实验中揭示了 SceneVerse 和 GPS 的巨大潜力。
Jan, 2024
本文提出了一种名为 VL-SAT 的模型,通过多模态方案,以语言和视觉数据为基础,利用 Visual-Linguistic Semantics Assisted Training(VL-SAT)显著提升 3DSSG 预测模型的性能。通过有效地利用视觉语义性地训练,提高 3DSSG 预测模型的性能,进而对 3D 点云数据进行更好地解释。
Mar, 2023
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
该文介绍了一个大规模室内空间数据集,其中包含 2D、2.5D 和 3D 接口的多种相互注册的模态,并具有实例级别的语义和几何注释。该数据集使得可以开发联合和跨模态学习模型,以及可能利用大规模室内空间中存在的规律性的无监督方法。
Feb, 2017