METER:用于单目深度估计的移动视觉变换器架构
本文提出了一种在嵌入式系统上实现快速单视图深度估计的高效轻量级编码器 - 解码器网络架构,涉及深度感知、机器人任务以及神经网络等关键词。在使用 NVIDIA Jetson TX2 GPU 或仅使用 TX2 CPU 时,FastDepth 可以达到每秒 178 帧或每秒 27 帧,并保持低功耗,同时在 NYU Depth v2 数据集上达到接近业界最佳准确度,是目前作者所知道的实时单目深度估计最低延迟最高吞吐量的深度神经网络。
Mar, 2019
在本文中,我们提出了两种高效且轻量级的编码器 - 解码器网络结构,RT-MonoDepth 和 RT-MonoDepth-S,用于降低嵌入式系统上的计算复杂性和延迟,以实现实时深度估计。我们的方法论表明,在单个 RGB 图像的更快推断速度下,可以达到类似于先前最先进深度估计作品的准确性。与现有的快速单目深度估计方法相比,我们提出的网络 RT-MonoDepth 和 RT-MonoDepth-S 在分辨率为 640×192 的单个 RGB 图像上在 NVIDIA Jetson Nano 上运行速度为 18.4&30.5 FPS,在 NVIDIA Jetson AGX Orin 上运行速度为 253.0&364.1 FPS,并在 KITTI 数据集上达到相对最先进的准确性。据作者所知,本文在准确性和最快推断速度方面都达到了最好的水平。
Aug, 2023
提出了一种新的基于 Vision Transformers(ViTs)和自监督单眼深度估计的框架 MonoViT,通过结合普通卷积和 Transformer 模型,能够在局部和全局推理,可以更准确地预测深度,达到了更高水平的性能,证明比其他数据集具有更好的泛化能力。
Aug, 2022
提出了一种使用 Transformer 来进行单目深度估计的 Token-Sharing Transformer(TST)架构,该架构通过全局令牌共享,在嵌入式设备中达到高吞吐量的准确深度预测,并在 NYU Depth v2 数据集上优于现有的轻量级单目深度估计方法。
Jun, 2023
研究在自动驾驶和高级驾驶辅助系统下,使用视觉转换器作为新的方法来进行单目深度估计,在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能,同时具有更强的鲁棒性和可扩展性。
Feb, 2022
本研究介绍了一种名为 MonoDETR 的使用深度感知 Transformer 的新型单目三维物体检测框架。通过将物体候选项表示为一组查询,并采用基于注意力的深度编码器生成二维输入图像的非局部深度嵌入,然后提出了一个深度引导的解码器,通过深度交叉关注模块对查询与场景深度特征进行交互,每个物体查询从图像的深度引导区域自适应地估计其三维属性。该系统具有端到端的结构,在 KITTI 基准测试上取得了最新成果,并在广泛的消融研究中证明了该方法的有效性,具有成为未来单目三维物体检测研究的 Transformer 基线的潜力。
Mar, 2022
该研究提出了一种基于 Transformer 编码器架构的创新深度估计算法,针对 NYU 和 KITTI 深度数据集。该研究采用 Transformer 模型来捕捉图像数据中的复杂空间关系以用于深度估计任务,并集成了结构相似性指数 (SSIM) 和均方误差 (MSE) 的复合损失函数,以确保预测的深度图像在结构上保持一致并最小化像素级估计误差。经过严格训练和评估,模型在 NYU 深度数据集上展现出卓越性能,为单幅图像深度估计,尤其是在复杂室内和交通环境中,带来了显著的进展。
Mar, 2024
提出了一种新颖的端到端深度感知装换网络 MonoDTR,用于解决自动驾驶中单目 3D 物体检测的任务,该网络包括深度感知特征增强模块(DFE)以及深度感知 Transformer 模块(DTR),通过辅助监督学习无需额外计算的深度感知特征,并全局整合上下文和深度感知特征;深度位置编码(DPE)注入深度位置提示到 Transformer 中,并通过实验证明该方法优于现有最先进方法并可实现实时检测。
Mar, 2022
本文对移动增强现实中的度量深度估计进行了研究,探讨了硬件、数据和模型相关的挑战,并提出了利用移动设备相机和其他可用传感器的更多硬件相关信息、捕捉高质量数据以反映真实世界增强现实场景,以及设计模型架构来利用新信息等有希望的未来方向。
Oct, 2023