全景神经场:一种语义对象感知的神经场景表示
本综述全面研究了语义感知的神经辐射场(NeRFs)在视觉场景理解中的作用,覆盖了 250 多篇学术论文的分析。它探讨了 NeRFs 在场景中熟练推断静态和动态物体的三维表示的能力,并介绍了其在生成高质量新视点、补全场景细节(修复)、进行全面场景分割(全景分割)、预测三维边界框、编辑三维场景和提取以物体为中心的三维模型方面的重要性。本研究的一个重要方面是将语义标签应用为视点不变函数,有效地将空间坐标映射到一系列语义标签的过程,从而便于识别场景中的不同物体。总体而言,本综述强调了在视觉场景解释的背景下,语义感知的神经辐射场的发展和多样应用。
Feb, 2024
我们提出了一种新的算法,Panoptic Vision-Language Feature Fields (PVLFF),可以同时进行语义和实例分割,通过对输入帧上的 2D 实例分割提案应用对比损失函数来联合学习视觉 - 语言特征和分层实例特征,从而在 HyperSim、ScanNet 和 Replica 数据集上达到可比较的性能并在语义分割方面优于当前的 3D 开放词汇系统。
Sep, 2023
本文提出了一种名为 Lighting-Aware Neural Field (LANe) 的方法,以在具有物理一致性的条件下进行组合合成物体,该方法采用神经场来表征 3D 场景,将静态背景和瞬态元素分离成世界 - NeRF 和类特定的物体 - NeRFs,并明确地设计了世界和物体模型以处理照明变化,以便将物体组合到具有空间变化照明的场景中。
Apr, 2023
PanopticFusion 是一种新颖的在线立体语义映射系统,能够在 stuff 和 things 的级别上密集预测背景区域(stuff)的类标签和不同前景物体(things)的各自分割,利用其空间哈希体积图表示可以重构大规模场景并提取标记的网格,通过融合 2D 语义和实例分割输出对 RGB 框架的像素级 Panoptic 标签进行首次预测,并将这些标签与深度测量一起整合到体积地图中进行 CRF 模型的规范化,通过提出的一种新的一次势近似和地图分割策略实现在线 CRF 推理,我们在 ScanNet(v2)数据集上评估了系统性能,发现其在语义和实例分割基准测试中均优于或与最先进的脱机 3D DNN 方法相比,同时演示了利用该系统生成的 3D Panoptic 地图的有前途的增强现实应用。
Mar, 2019
通过使用语义信息并在少量的图片上建立 occlusion filtering module,我们提出了一个学习框架来重建神经场景表征并演示了其在 Phototourism 数据集上在 few-shot 场景下优于最先进的 novel view synthesis 方法。
Mar, 2023
NeSF 是一种从 RGB 图像中生成 3D 语义场的方法,它利用了隐式神经场表示法,根据点积函数捕捉 3D 结构,能够在任意 3D 点上查询,并且生成可以与真实场景相对应的 3D 一致的语义图谱,是第一种只需要 2D 监督进行训练的真正密集的 3D 场景分割方法。
Nov, 2021
本文介绍了一种名为 Panoptic FCN 的概念简单、强大、高效的全景分割框架,该方法旨在以统一的卷积管道中表示和预测前景物体和背景杂物。通过提出的内核生成器,Panoptic FCN 将每个对象实例或杂物类别编码为特定的内核权重,并通过将高分辨率特征直接卷积来生成预测。通过这种方法,实例感知和语义一致的特性可以分别在一个简单的生成内核,然后进行分割的工作流中得以满足。在 COCO、Cityscapes 和 Mapillary Vistas 数据集上,不需要额外的定位框或实例分离,所提议的方法在单尺度输入上具有比以前的基于框和无框模型更高的效率。
Dec, 2020
本研究提出了一种新型的神经场景渲染系统,在聚集和现实世界场景中学习对象组合的神经辐射场,具有编辑能力和高效处理能力,并通过新颖的双通道体系结构设计,得以在场景几何和外观以及独立于对象的可学习激活代码条件下训练各个独立目标。通过实验证明,该系统不仅在静态场景新视点综合方面具备优异性能,而且在对象级别编辑方面也能产生逼真的渲染效果。
Sep, 2021
介绍了一项新的问题任务,即基于全景分割生成全景场景图(PSG);创建了一个高质量 PSG 数据集用于基准测试,并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线;探讨了未来的挑战和发展方向。
Jul, 2022