基于点云的指导场景增强

Nov, 2023

PISA: Point-cloud-based Instructed Scene Augmentation

Yiyang Luo, Ke Lin

TL;DR我们提出了第一个端到端的多模态深度神经网络，可以根据文本指令生成与周围环境一致的点云对象，从而能够创建涉及以前未见过的物体布局的新场景，而无需预先构建的 CAD 模型数据库。

Abstract

indoor scene augmentation has become an emerging topic in the field of computer vision with applications in augmented and virtual reality. However, existing scene augmentation methods mostly require a pre-built o

indoor scene augmentation computer vision deep neural network point cloud objects text instructions

发现论文，激发创造

使用文本指令学习编辑 3D 点云

本文介绍了 InstructP2P，一种端到端框架，用于根据高级文本说明指导点云上的 3D 形状编辑。InstructP2P 通过协同作用于文本的点云扩散模型 Point-E 和强大的语言模型的优势来扩展现有方法的能力，从而使用语言说明进行颜色和几何编辑。我们提出了一个新的形状编辑数据集，旨在培训 InstructP2P。在实验中，InstructP2P 显示了泛化能力，尽管只有有限的数据训练，却适应了新的形状类别和指令。

Jun, 2023

一种 LiDAR 点云生成器：从虚拟世界到自主驾驶

本文提出了一个从电脑游戏中快速生成带有准确点级别标签的点云的框架，可用于深度学习算法的训练和神经网络的鲁棒性测试并提出了自动标定方法，实验表明将生成的合成数据与训练数据集相结合可显著提高点云分割的准确性 (+9%)，通过从用户配置场景的点云进行神经网络的测试和重新训练，可以修复神经网络的弱点 / 盲点。

Mar, 2018

语言辅助的 3D 场景理解

提出了一种通过语言辅助的方法来学习点云特征，使用 LMMs 文本丰富语义概念，通过基于统计的显著特征选择实现去冗余和降低特征维度，进一步分析了文本对点云的对比训练的影响，实验证实所提出的方法在三维语义分割、三维物体检测和三维场景分类任务中学习到了有意义的点云特征，并获得了最先进或可比较的性能。

Dec, 2023

Real3D-Aug: 3D 检测和分割的点云增强方法 —— 通过放置真实带有遮挡处理的物体

本文介绍了一种基于数据增强的方法，通过多次利用已有数据，使用现实世界中的数据模拟给点云数据进行物体检测和语义分割训练。此方法在 KITTI 物体检测和 SemanticKITTI 语义分割挑战赛中取得了显著的性能提升。

Jun, 2022

基于合成数据的鲁棒性类别层次 3D 姿态估计

本篇论文提出 SyntheticP3D 数据集和 CC3D 方法，结合这两种方法可以实现在只用 10% 的真实数据的情况下，与当前最先进的模型在物体位姿估计方面取得了可与之媲美结果，在采用 50% 的真实数据时还超越了 SOTA 模型 10.4%。

May, 2023

InstructScene: 指令驱动的具有语义图先验的三维室内场景合成

通过集成语义图形先验和布局解码器的创新生成框架 InstructScene，改进了三维场景合成的可控性和保真度，并展示了零样本方式在各种下游任务中的多功能性。

Feb, 2024

增强现实与计算机视觉：城市驾驶场景的高效数据生成

本研究探讨了结合实际图片和虚拟对象的增量学习方法，通过少量用户交互的方式，将虚拟对象添加到实际图片中，从而提高物体实例分割模型的性能。通过在 KITTI 2015 和 Cityscapes 数据集上的实验结果表明，增量学习方法可以显著提高实例分割和物体检测模型的泛化能力。

Aug, 2017

SceneGraphNet：神经信息传递用于三维室内场景增强

本文提出了一种神经传递信息的方法来与其环境相匹配的新物体进行增强，该方法能够预测适合位置的物体类型的概率分布，并在密集图中传递学习消息来处理物体相之间的空间和结构关系，通过注意机制加权消息，在 SUNCG 数据集中比其他方法更准确地预测场景中缺失的物体，并展示了基于此方法的其他应用，包括基于上下文的 3D 对象识别和迭代场景生成。

Jul, 2019

神经点基图形学

本研究提出了一种基于点的方法，使用可学习的神经描述符来编码局部几何和外观信息，并学习深度渲染网络生成具有照片般逼真感觉的场景视图，同时避免显式表面估计和网格化，并适用于各种复杂场景，包括使用 RGB-D 传感器与标准 RGB 相机进行扫描的场景。

Jun, 2019

Point-E: 从复杂提示生成 3D 点云的系统

利用文本条件生成 Diffusion 模型以减少 GPU 显存需求，从而在单 GPU 上仅需 1-2 分钟生成 3D 点云模型。

Dec, 2022