CompletionFormer:基于卷积和 Vision Transformers 的深度完成
该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法,特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。
Mar, 2022
本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型,使用基于门的注意力机制避免了网络对局部细节的损失,并在三个具有挑战性的数据集上取得了最先进的性能。
Mar, 2021
通过使用 2D 和 3D 注意力,提出了一种新颖的方法,实现了高精度的深度完成,无需迭代空间传播,该方法在深度完成模型中应用 2D 特征和 3D 点云处理,从而达到了与基于变压器的模型相当的性能,并通过正规化技术和全局注意力改进了学习和准确性。
Mar, 2024
本文介绍了一种从 RGBD 数据中完成深度完成的简单且有效的神经网络块,该块能够学习提取联合的 2D 和 3D 特征,并成功地在 KITTI 深度完成基准测试中取得了优异的表现。
Dec, 2020
激光雷达深度补全是深度估计的一个新的热门话题,在此任务中,颜色空间和深度空间的特征融合是关键和难点。本文将经典的 LSTM 和 Transformer 模块从自然语言处理迁移到深度补全中并进行相应的重新设计,通过使用遗忘门、更新门、输出门和跳跃门来实现颜色和深度特征的高效融合,并在多个尺度上进行循环优化,最后通过 Transformer 的多头注意力机制进一步融合深度特征。实验证明,我们的方法无需重复的网络结构和后处理步骤,只需在简单的编码器 - 解码器网络结构上添加我们的模块,就能达到最先进的性能。我们的方法在当前主流的自动驾驶 KITTI 基准数据集上排名第一,也可作为其他方法的主干网络,同样能达到最先进的性能。
Sep, 2023
提出了一种基于残差学习的端到端深度完成框架,其将深度完成分为两个阶段进行训练,即粗 - 精阶段,并利用颜色图像和粗深度图提取了表示特征和进行了能量融合操作,将 KITTI 基准下的平均 RMSE 性能提高至当前最先进技术水平以上。
Dec, 2020
基于编码器 - 解码器结构的新型深度补全模型提出了两个关键组件:MagaConv 架构和 BP-Fusion 模块。其中,MagaConv 架构通过使用迭代更新的遮罩调制卷积运算来获取精确的深度特征,而 BP-Fusion 模块通过在全局视角中利用连续的双向融合结构逐步整合深度和颜色特征。通过在包括 NYU-Depth V2,DIML 和 SUN RGB-D 在内的流行基准数据集上进行广泛实验,我们的模型表现优越,成就了在深度图像补全方面的卓越性能,并在准确性和可靠性方面超越了现有方法。
Jan, 2024
使用 FocDepthFormer,一种基于 Transformer 的网络,通过 LSTM 模块和 CNN 解码器组成,能够从焦点 / 非焦点图像堆栈中推断深度,并在各种度的焦点 / 非焦点情况下直接捕获低级特征,通过 LSTM 与大量单眼 RGB 深度估计数据进行预训练,在各个基准数据集上表现优于现有模型。
Oct, 2023