DeCoTR: 用 2D 和 3D 注意力增强深度完成
本文提出 3dDepthNet,采用新颖的 3D-to-2D 粗 - 细双重加密设计,通过点云补全和编码解码结构完成深度图像的生成,旨在用于机器人和自动驾驶等领域,实验表明其有效性和高效性。
Mar, 2020
本文介绍了一种从 RGBD 数据中完成深度完成的简单且有效的神经网络块,该块能够学习提取联合的 2D 和 3D 特征,并成功地在 KITTI 深度完成基准测试中取得了优异的表现。
Dec, 2020
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
提出了一种 CoTr 框架,将卷积神经网络和 Transformer 相结合,利用 DeTrans 的可变形注意机制有效地处理高分辨率的 3D 医学图像,对 11 个主要人体器官进行的广泛评估显示,CoTr 相对于其他 CNN、Transformer 和混合方法在 3D 多器官分割任务中具有显著的性能优势。
Mar, 2021
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
3DETR 是一种基于 Transformer 的端到端目标检测模型,适用于 3D 点云,相较于现有的检测方法,它需要最少的修改,可以通过将 3D 领域知识整合进去得到进一步的改进,在 ScanNetV2 数据集上,相比于 VoteNet 基线具有 9.5% 更好的性能,并且适用于其他 3D 任务。
Sep, 2021
本文提出了一个联合卷积注意力和 Transformer 块的深度完成模型,其在建筑物深度完成基准和室内 NYUv2 数据集上最新的 CNNs 方法实现较高的效率,相比之下,有效地降低了 1/3 FLOPs。
Apr, 2023
该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法,特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。
Mar, 2022
本文提出了一种统一的 CNN 框架来规范化深度完成,通过模拟深度与表面法线之间的几何约束,预测稀疏 LiDAR 输入的置信度,以隔离噪声的影响,以实现从稀疏深度图恢复密集深度图的目标,我们在 KITTI 深度完成数据集和 NYU-Depth-V2 数据集上进行了大量实验,证明了我们的方法达到了最先进的性能。
Oct, 2019