逆矩阵 VT3D: 基于投影矩阵的高效三维占据预测方法

Jan, 2024

逆矩阵 VT3D: 基于投影矩阵的高效三维占据预测方法

InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

Zhenxing Ming, Julie Stephany Berrio, Mao Shan, Stewart Worrall

TL;DR本文介绍了 InverseMatrixVT3D 方法，该方法通过使用两个投影矩阵将多视角图像特征转换为 3D 特征体，用于 3D 语义占有预测。该方法采用了矩阵乘法和稀疏矩阵处理技术，以高效地生成全局的鸟瞰图特征和局部的 3D 特征体。通过全局 - 局部注意融合模块以及多尺度监督机制进行性能提升。在 nuScenes 数据集上进行的综合实验证明了该方法的简洁和有效性。

Abstract

This paper introduces inversematrixvt3d, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer q

inversematrixvt3d 3d semantic occupancy prediction projection matrices bird's eye view features multi-scale supervision mechanism

发现论文，激发创造

MVSBoost：一种高效的基于点云的 3D 重建

通过结合多视角全景图像、鲁棒的相机位姿估计、先进的图像处理以及点云密度化、网格重建和纹理生成等技术，本论文提出了一个增强型的多视角立体重建框架，显著提高了传统方法的准确性和精度，在处理遮挡和视角变化的复杂场景重建方面表现出了优异的计算效率和鲁棒性，对于实时处理和可扩展性要求高的情况，可以与当前最先进的神经隐式场方法相竞争甚至超越。

Jun, 2024

SimpleMapping：实时的、基于视觉惯性的深度多视角稠密建图

我们提出了一种实时的基于视觉惯性的稠密建图方法，可使用顺序单眼图像和惯性测量单元（IMU）读数进行增量式三维网格重建，并提出了稀疏点辅助的多视角深度学习神经网络 (SPA-MVSNet)，即使在噪声密集的情况下也能实现高质量的 3D 网格重建。

Jun, 2023

VisFusion：基于可见性的在线视频三维场景重建

提出了一种名为 VisFusion 的可见性感知在线 3D 场景重建方法，通过对单目视频进行姿态估计来恢复场景的体量特征，并提出了细节保留的局部稀疏化方法和分层预测 TSDF 的方法，实验结果表明我们的方法能够获得卓越的性能。

Apr, 2023

MVSNet: 不规则多视图立体的深度推断

本文提出了一种用于计算多视图深度图的端到端深度学习框架 (MVSNet)，首先提取深度视觉图像特征，然后利用不同 iable homography 变形构建 3D 成本体积，并使用 3D 卷积对初始深度图进行规则化和回归，最终与参考图像相结合生成最终输出，其通过引入基于方差的成本度量来适应任意 N-view 输入，其表现优于现有同类方法并能很好地泛化于室内室外数据。

Apr, 2018

Associative3D: 稀疏视图三维体素重建

本研究探讨了从未知的相机的两个视图中进行 3D 体积重建的问题，提出了一种新的方法，即联合推理方法，可以从稀疏视图中恢复合理的场景。

Jul, 2020

直接多视角多人三维姿态估计

该研究提出了一种名为 MvP 的多视角姿态变换器，用于从多视角图像中估计多人的三维姿态，该方法可以直接回归多人三维姿态，并使用几种技术来提高准确性，该模型在多项指标上表现优秀。

Nov, 2021

DUSt3R：简化几何三维视觉

DUSt3R 是一种新颖的范式，用于进行任意图像集合的密集和无约束立体三维重建，通过将成对的重建问题作为点图的回归来实现，进而实现单眼和双眼重建的统一，提供场景的三维模型和深度信息，并能够轻松恢复像素匹配、相对和绝对相机，DUSt3R 能够简化多种几何三维视觉任务。

Dec, 2023

2L3: 将不完美生成的 2D 图像提升到精确的 3D

通过利用内在分解指导、瞬态 - 单模先验指导和视图增强来解决光照不一致、几何不对齐和视图稀疏等问题，我们提出了一种新的 3D 重构框架，该框架能够将多视图图像生成与神经网络基于体积有符号距离函数的单一图像到 3D 对象重建相结合。在各种数据集上评估我们的方法，并在定量和定性评估中展示了其卓越性能，从而在 3D 物体重建方面取得了显著的进展。与最新的最先进方法 Syncdreamer 相比，我们将 Chamfer 距离误差降低了约 36％，将 PSNR 提高了约 30％。

Jan, 2024

基于注意力感知的代价体积金字塔的多视角立体网络用于三维重建

提出一种高效的多视角立体（MVS）网络以实现多视角图像的三维重建和深度推断，其采用策略推断出粗到细的深度图，其中引入自注意力层与相似度测量来生成新的代价体以进行深度图细化，最终实验表明该模型优于大多数 SOTA 方法。

Nov, 2020

使用带引导的稀疏特征体积融合从单目视频中增量稠密重建

本文提出了基于特征体积的实时密集重建方法，采用稀疏的深度特征体积来预测 TSDF 值，通过多视角图像聚合细节信息进行时序融合，实现了比以往更高分辨率和更完整细节的三维几何图形重建，其在室内和室外场景中都比现有的方法具有更好的实时重建性能。

May, 2023