Mar, 2024

基于 Transformer 编码器和特征融合的深度估计算法

TL;DR该研究提出了一种基于 Transformer 编码器架构的创新深度估计算法,针对 NYU 和 KITTI 深度数据集。该研究采用 Transformer 模型来捕捉图像数据中的复杂空间关系以用于深度估计任务,并集成了结构相似性指数 (SSIM) 和均方误差 (MSE) 的复合损失函数,以确保预测的深度图像在结构上保持一致并最小化像素级估计误差。经过严格训练和评估,模型在 NYU 深度数据集上展现出卓越性能,为单幅图像深度估计,尤其是在复杂室内和交通环境中,带来了显著的进展。