多视角 SAM 联合深度预测和语义分割

Oct, 2023

多视角 SAM 联合深度预测和语义分割

Joint Depth Prediction and Semantic Segmentation with Multi-View SAM

Mykhailo Shvets, Dongxu Zhao, Marc Niethammer, Roni Sengupta, Alexander C. Berg

TL;DR基于多视角立体视觉和基于 Transformer 的语义分割解码器的多任务方法在深度预测和分割预测方面呈现出相互的优势。

Abstract

multi-task approaches to joint depth and segmentation prediction are well-studied for monocular images. Yet, predictions from a single-view are inherently limited, while multiple views are available in many robot

multi-task approaches depth prediction segmentation prediction multi-view stereo (mvs)transformer-based semantic segmentation decoder

发现论文，激发创造

SD-MVS：基于分割驱动的变形多视图立体匹配与球面细化和 EM 优化

通过使用 Segmentation-Driven Deformation Multi-View Stereo（SD-MVS）方法，并结合 Segment Anything Model（SAM）进行场景中语义实例的区分，以及采用独特的细化策略，可以显著提高重建的 3D 模型的完整性，并通过 Expectation-Maximization 算法优化匹配成本及超参数，有效减少参数过度依赖经验调整的问题。在 ETH3D 高分辨率多视角立体视觉基准和 Tanks and Temples 数据集上的评估表明，该方法能够在更少的时间内达到最先进的结果。

Jan, 2024

3DMV：三维多视角联合预测在三维语义场景分割中的应用

提出了一种名为 3DMV 的新型方法，使用联合 3D - 多视图预测网络对室内环境中 RGB-D 扫描进行三维语义场景分割。通过将 RGB 和几何特征相结合，并以一个可微的 backprojection 层将其映射到三维网格中，这种联合二维 - 三维架构实现了比现有基线方法显著更好的结果。

Mar, 2018

通过有效的协同分割和数据增强实现自监督的多视图立体匹配

针对现有自监督方法在多视图重建中可能出现的相关点之间颜色不同的问题，本文提出了一种基于语义共分割和数据增强的更可靠监督的框架，其中利用多视图图像中的相互语义来指导语义一致性，同时设计了有效的数据增强机制，以确保对样本的变换鲁棒性。在 DTU 数据集上的实验结果表明，我们提出的方法在无监督方法中取得了最先进的性能，并且甚至可以与有监督方法一较高下。此外，在 Tanks＆Temples 数据集上的广泛实验证明了该方法的有效泛化能力。

Apr, 2021

MVS^2: 多视图对称深度无监督多视图立体成像

本文介绍了一种基于无监督学习的多视图深度图像学习方法，可以从多个视角的输入图像中学习深度和遮挡图像，并在训练和测试阶段都强制实施多视图深度一致性，进而为实际场景下处理遮挡提供更好的鲁棒性。

Aug, 2019

MegaDepth：从互联网照片中学习单视图深度预测

本文提出了使用多视图互联网照片集合生成训练数据以解决现有数据集受限的问题，构建了一个基于此想法的大型数据集 MegaDepth，同时通过新的数据清理方法和自动生成数据的方法解决了 MVS 数据的噪声和无法重构的对象等问题。验证表明，基于 MegaDepth 训练的模型不仅适应新的场景，还适应其他各种数据集。

Apr, 2018

使用 RGB-D 相机的多视角深度学习实现一致的语义映射

本文提出一种从多个 RGB-D 视图中进行对象类语义分割的新方法，使用深度学习训练神经网络进行预测，同时借助于 RGB-D 的 SLAM 获取摄像机轨迹，实现多视图一致性训练和测试。实验结果表明，与单视图基准线相比，深度特征池化和多视角融合可以在 NYUDv2 数据集上实现单视图语义分割和多视图语义融合的最新性能。

Mar, 2017

基于深度合成的无监督多视角立体匹配网络 DS-MVSNet

本文提出 DS-MVSNet，一种端到端的无监督多视点结构，并通过 Adaptive Gaussian Sampling 和 Improved Adaptive Bins Sampling 等方法来提高深度假设的准确性。同时，我们利用源深度来渲染参考图像，并提出了深度一致性损失和深度平滑性损失来提供额外的指导。最后，通过在 DTU 数据集和 Tanks＆Temples 数据集上的一系列实验证明了我们的方法相对于现有方法的效率和稳健性。

Aug, 2022

虚拟多视角融合用于三维语义分割

本文通过重新审视三维网格的经典多视图表示方法，研究了几种技术，使其可用于三维语义网格的语义分割。给定一个从 RGBD 传感器重建的三维网格，本文方法有效地选取不同的虚拟视图，并渲染多个二维通道，以训练出有效的二维语义分割模型；最终将多视讯预测的特征融合到三维网格顶点上，预测网格语义分割标签。

Jul, 2020

DeepMVS: 学习多视角立体视觉

DeepMVS 是一种用于多视图立体重建的深度卷积神经网络 (ConvNet)，它可以对任意数量的姿态图像进行处理以预测高质量的视差图，其有效的信息聚合方法和采用 VGG-19 网络的多层特征激活实现了优异的效果。

Apr, 2018

DeepVideoMVS：基于重复时空融合的多视点视频立体匹配

该论文提出了一种在线多视角深度预测方法，使用 ConvLSTM cell 实现对过去一定量信息的压缩，并考虑了时间步之间的视点变化，通过对先前的深度预测进行位移实现细胞的隐藏态的传播。该方法在实时性能的基础上带来了显著的深度预测的提高，并在数百个室内场景中表现出了优异的状态，代码详见 https://thisURL。

Dec, 2020