CompletionFormer：基于卷积和 Vision Transformers 的深度完成

CVPRApr, 2023

CompletionFormer：基于卷积和 Vision Transformers 的深度完成

CompletionFormer: Depth Completion with Convolutions and Vision Transformers

Zhang Youmin, Guo Xianda, Poggi Matteo, Zhu Zheng, Huang Guan...

TL;DR本文提出了一个联合卷积注意力和 Transformer 块的深度完成模型，其在建筑物深度完成基准和室内 NYUv2 数据集上最新的 CNNs 方法实现较高的效率，相比之下，有效地降低了 1/3 FLOPs。

Abstract

Given sparse depths and the corresponding RGB images, depth completion aims at spatially propagating the sparse measurements throughout the whole image to get a dense depth prediction. Despite the tremendous progress of deep-learning-based →

depth completion transformer-based architecture convolutional attention cnn models pyramidal structure

发现论文，激发创造

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021

DeCoTR: 用 2D 和 3D 注意力增强深度完成

通过使用 2D 和 3D 注意力，提出了一种新颖的方法，实现了高精度的深度完成，无需迭代空间传播，该方法在深度完成模型中应用 2D 特征和 3D 点云处理，从而达到了与基于变压器的模型相当的性能，并通过正规化技术和全局注意力改进了学习和准确性。

Mar, 2024

学习联合 2D-3D 表示进行深度补全

本文介绍了一种从 RGBD 数据中完成深度完成的简单且有效的神经网络块，该块能够学习提取联合的 2D 和 3D 特征，并成功地在 KITTI 深度完成基准测试中取得了优异的表现。

Dec, 2020

多尺度循环 LSTM 与 Transformer 网络用于深度补全

激光雷达深度补全是深度估计的一个新的热门话题，在此任务中，颜色空间和深度空间的特征融合是关键和难点。本文将经典的 LSTM 和 Transformer 模块从自然语言处理迁移到深度补全中并进行相应的重新设计，通过使用遗忘门、更新门、输出门和跳跃门来实现颜色和深度特征的高效融合，并在多个尺度上进行循环优化，最后通过 Transformer 的多头注意力机制进一步融合深度特征。实验证明，我们的方法无需重复的网络结构和后处理步骤，只需在简单的编码器 - 解码器网络结构上添加我们的模块，就能达到最先进的性能。我们的方法在当前主流的自动驾驶 KITTI 基准数据集上排名第一，也可作为其他方法的主干网络，同样能达到最先进的性能。

Sep, 2023

室内深度补全：边界一致性及自注意力

本研究使用自我关注机制和边界一致性来提高深度补全图的质量和结构，已验证其在 Matterport3D 数据集上优于现有深度补全算法。

Aug, 2019

基于 Transformer 的高保真多元图像完成

该论文提出了一种结合 transformer 和卷积神经网络的图像补全方法，可实现丰富的多样性和高保真度，普适性强。

Mar, 2021

基于特征融合的粗到细残差学习用于深度补全的 FCFR-Net

提出了一种基于残差学习的端到端深度完成框架，其将深度完成分为两个阶段进行训练，即粗 - 精阶段，并利用颜色图像和粗深度图提取了表示特征和进行了能量融合操作，将 KITTI 基准下的平均 RMSE 性能提高至当前最先进技术水平以上。

Dec, 2020

面具适应性门控卷积和双向渐进融合网络用于深度补全

基于编码器 - 解码器结构的新型深度补全模型提出了两个关键组件：MagaConv 架构和 BP-Fusion 模块。其中，MagaConv 架构通过使用迭代更新的遮罩调制卷积运算来获取精确的深度特征，而 BP-Fusion 模块通过在全局视角中利用连续的双向融合结构逐步整合深度和颜色特征。通过在包括 NYU-Depth V2，DIML 和 SUN RGB-D 在内的流行基准数据集上进行广泛实验，我们的模型表现优越，成就了在深度图像补全方面的卓越性能，并在准确性和可靠性方面超越了现有方法。

Jan, 2024

FocDepthFormer：基于 Transformer 与 LSTM 的焦点深度估计

使用 FocDepthFormer，一种基于 Transformer 的网络，通过 LSTM 模块和 CNN 解码器组成，能够从焦点 / 非焦点图像堆栈中推断深度，并在各种度的焦点 / 非焦点情况下直接捕获低级特征，通过 LSTM 与大量单眼 RGB 深度估计数据进行预训练，在各个基准数据集上表现优于现有模型。

Oct, 2023