PlaneDepth: 基于正交平面的自监督深度估计
提出了一种基于像素平面性先验的单目深度估计方法,并使用具有两个输出头的卷积神经网络来学习并由此实现端到端的训练,以预测尖锐边缘和具有合理 3D 重建的深度图,将其在 NYU Depth-v2 和 KITTI 的 Garg 数据集上的实验结果击败了以前的方法并创造了最新的技术成果。
Apr, 2022
基于物理驱动的深度学习框架用于单目深度估计,通过假设 3D 场景由分段平面组成,提出了一种新的正常 - 距离头来推导每个位置的深度,同时,通过开发的面感知一致性约束对正常和距离进行规范化,并引入了额外的深度头来改善框架的鲁棒性,利用有效的对比迭代细化模块根据深度的不确定性互补地对深度进行精细化改进,实验证明该方法在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上超过了现有的最先进竞争方法,值得注意的是,它在 KITTI 深度预测在线基准测试中的提交时间中排名第一。
Sep, 2023
通过提出正交平面解缠网络 (DOPNet) 以分辨模糊语义和针对水平深度与比例的无监督自适应技术,本研究在全景布局估计和多视角布局估计任务中优于其他 SoTA 模型。
Dec, 2023
本研究通过采用室内场景中表现出来的结构规律,采用两个额外的自我监督信号进行自我监督培训:1) 曼哈顿法线约束,2) 共面约束,来训练更好的深度网络。
Aug, 2021
通过假设 3D 场景由分段平面组成,本文提出了针对单目深度估计和补全任务的新型物理(几何)推动深度学习框架。我们通过估计表面法线和平面到原点的距离图或补全稀疏表面法线和距离图作为中间输出,提出了一个法线 - 距离模块。同时,通过开发出平面感知一致性约束来规范化表面法线和距离图,并将其转换为深度图。此外,还集成了一个额外的深度模块来增强所提出框架的鲁棒性。在 NYU-Depth-v2、KITTI 和 SUN RGB-D 数据集上的大量实验表明,我们的方法在单目深度估计和补全任务方面胜过了先前的最先进竞争方法。
Nov, 2023
我们提出了一种新的方法,通过 2D 图像集合生成具有精细几何形状且视角一致的逼真图像。我们的方法使用一个名为 OrthoPlanes 的混合显式 - 隐式表示,它在功能图中编码了细粒度的 3D 信息,并通过修改 2D StyleGANs 可以高效地生成。与以前的表示相比,我们的方法具有更好的可伸缩性和表达能力,提供明确和显式的信息。因此,我们的方法可以处理更具挑战性的视角,并合成具有高度空间自由度的关节对象。实验证明,我们的方法在 FFHQ 和 SHHQ 数据集上在定量和定性上都达到了最先进的结果。项目页面:https://orthoplanes.github.io/。
Sep, 2023
我们提出了一种新的方法 LoLep,通过从单个 RGB 图像回归学习本地平面,准确地表示场景,从而生成更好的新视图。该方法将深度信息从中剔除,且在无深度信息的情况下回归合适的平面位置是一个具有挑战性的问题。为了解决这个问题,我们将视差空间预划分为不同的区间,并设计了一个视差采样器用于在每个区间中回归多个平面的局部偏移量。然而,仅使用这样的采样器会导致网络无法收敛;因此我们进一步提出了两种优化策略,将其与不同数据集的视差分布相结合,并提出了一种考虑遮挡的再投影损失作为一种简单有效的几何监督技术。我们还引入了一种自注意机制以改善遮挡推断,并提出了一个块采样自注意力模块(BS-SA)来解决将自注意力应用于大型特征图的问题。我们证明了我们的方法的有效性,并在不同数据集上生成了最先进的结果。与 MINE 相比,我们的方法在 LPIPS 方面有 4.8%-9.0% 的减少和 83.1%-84.7% 的 RV 减少。我们还评估了在现实世界图像上的性能,并展示了其优势。
Jul, 2023
GroundNet 模型通过多任务联合优化像素级表面法线方向、地面平面分割和深度估计,实现从单张图像中估算出地面平面的 3D 方向,通过加入一致性损失优化了地面平面法线预测,并在 ApolloScape 和 KITTI 等真实世界数据集上取得了顶尖水平。
Nov, 2018
通过挑战传统趋势,本论文介绍了 GenDepth,一种能够适用于任意车载相机设置的新型模型,用于进行度量深度估计。通过创建具有不同车载相机系统的专门合成数据集,并结合对抗性域对齐的嵌入式镜头参数的新方法,GenDepth 在多个自动驾驶数据集上得到验证,展示了其对不同车载相机系统的最新泛化性能。
Dec, 2023
本文提出一种新方法,通过预测多视角一致的平面嵌入来辅助几何方法,将点进行聚类成平面,从而解决了在场景中估计平面表面的问题,并在 ScanNetV2 数据集上表明,该方法优于现有方法和强基线的平面估计任务。
Jun, 2024