本文介绍了 Mobile AI 挑战赛,通过提供包含 RGB 深度图像的大规模数据集,旨在开发基于端到端深度学习的高效的实时深度估计解决方案,可运行于移动设备上,并在 Raspberry Pi 4 上具有较快的运行速度和高精度度量。
May, 2021
本文提出了一种在嵌入式系统上实现快速单视图深度估计的高效轻量级编码器 - 解码器网络架构,涉及深度感知、机器人任务以及神经网络等关键词。在使用 NVIDIA Jetson TX2 GPU 或仅使用 TX2 CPU 时,FastDepth 可以达到每秒 178 帧或每秒 27 帧,并保持低功耗,同时在 NYU Depth v2 数据集上达到接近业界最佳准确度,是目前作者所知道的实时单目深度估计最低延迟最高吞吐量的深度神经网络。
Mar, 2019
本研究提出了一种高性能和可调谐的立体视差估计方法,其关键是通过半稠密重建的快速深度验证步骤,通过迭代逼近场景深度,构建由立体形象生成的多面平坦网格。该方法的简单性和速度以及可调谐的重建质量和运行时性能使其成为高速车辆应用的一个引人注目的解决方案。
Nov, 2015
本研究介绍了一种基于智能眼镜的 3D 计算摄影系统,通过在移动设备上执行预处理、在线立体校正和深度估计等一系列步骤,实现了高效、低延迟、低能耗的深度感知,并在野外环境下实现了无缝的视角切换和 3D 效果生成。
Nov, 2022
本文提出一种基于传统匹配成本的快速深度估计网络,该网络仅使用每个像素和二维卷积操作来总结每个位置的匹配信息,并以低维特征向量的形式生成密集的视差图,在保证准确度的同时,相较于其他算法显著加快了处理速度。
探究采用适当的网络设计和训练策略以及如何将结果网络映射到手持设备以实现实时性能的方式解决单张图像深度估计的低可靠性和需求高计算资源的问题,并通过实验证明这些快速网络具有良好的泛化能力以用于现实应用,包括野外中的实时深度感知增强现实和图像模糊处理。
Jun, 2020
在本文中,我们提出了两种高效且轻量级的编码器 - 解码器网络结构,RT-MonoDepth 和 RT-MonoDepth-S,用于降低嵌入式系统上的计算复杂性和延迟,以实现实时深度估计。我们的方法论表明,在单个 RGB 图像的更快推断速度下,可以达到类似于先前最先进深度估计作品的准确性。与现有的快速单目深度估计方法相比,我们提出的网络 RT-MonoDepth 和 RT-MonoDepth-S 在分辨率为 640×192 的单个 RGB 图像上在 NVIDIA Jetson Nano 上运行速度为 18.4&30.5 FPS,在 NVIDIA Jetson AGX Orin 上运行速度为 253.0&364.1 FPS,并在 KITTI 数据集上达到相对最先进的准确性。据作者所知,本文在准确性和最快推断速度方面都达到了最好的水平。
Aug, 2023
通过使用双目输入,引进左右一致性损失函数,并提出一种保存边缘特征的损失函数来改善测试时训练中的深度模糊问题,提出了一种稠密的双目视频深度估计方法,调研结果表明该模型精度可靠。
May, 2023
该研究在保持模型简洁的情况下,通过设计选项和实验研究,实现了较高水平的深度估计性能,并在移动设备上实现了最优化。
本文提出了一种用于估计一致密集深度图和相机姿态的算法,该算法基于学习的深度先验和几何优化相结合,不需要输入相机姿态,并能够在包括噪声、抖动、运动模糊和卷帘快门失真等多种挑战性条件下实现稳健的重建。
Dec, 2020