基于 Transformer 编码器和特征融合的深度估计算法

Mar, 2024

基于 Transformer 编码器和特征融合的深度估计算法

Depth Estimation Algorithm Based on Transformer-Encoder and Feature Fusion

Linhan Xia, Junbang Liu, Tong Wu

TL;DR该研究提出了一种基于 Transformer 编码器架构的创新深度估计算法，针对 NYU 和 KITTI 深度数据集。该研究采用 Transformer 模型来捕捉图像数据中的复杂空间关系以用于深度估计任务，并集成了结构相似性指数 (SSIM) 和均方误差 (MSE) 的复合损失函数，以确保预测的深度图像在结构上保持一致并最小化像素级估计误差。经过严格训练和评估，模型在 NYU 深度数据集上展现出卓越性能，为单幅图像深度估计，尤其是在复杂室内和交通环境中，带来了显著的进展。

Abstract

This research presents a novel depth estimation algorithm based on a transformer-encoder architecture, tailored for the NYU and KITTI Depth Dataset. This research adopts a transformer model, initially renowned fo

depth estimation transformer-encoder architecture composite loss function structural similarity index measure (ssim)mean squared error (mse)

发现论文，激发创造

基于加权损失和迁移学习的深度估计

通过使用迁移学习和优化损失函数的简化和适应性方法，我们改进了深度估计的准确性。我们探索了多种编码解码模型，并发现 EfficientNet 模型在 RSME，REL 和 log10 方面表现最佳。我们的模型在准确性和稳健性方面取得了显著提升。

Apr, 2024

基于 Hybrid Transformer 的特征融合用于自监督单目深度估计

本文介绍了一种新的深度估计模型，使用 Vision Transformers 来提取图像中的全局上下文信息，实现对深度估算的改进，最终该模型在标准测试数据集上达到了最优性能。

Nov, 2022

基于 Transformer 的多帧自监督深度学习

本研究提出了使用特征匹配和转换器架构进行单目自监督深度估计的新方法，通过使用深度离散化的极线采样选择匹配候选项，并通过一系列的自注意力和交叉注意力层来改进预测。该方法可以从视频中单独训练，从而建立自监督单目深度估计的最新技术，并具有一定的泛化性能.

Apr, 2022

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

轻量级内窥镜深度估计与 CNN-Transformer 编码器

我们在内窥镜成像中解决了准确性和鲁棒性方面的关键挑战，特别强调了实时推断和反射的影响。我们提出了一种创新的轻量级解决方案，通过整合卷积神经网络（CNN）和 Transformer 来预测多尺度深度图。我们的方法包括优化网络架构，引入多尺度膨胀卷积和多通道注意机制。我们还引入了一种统计置信度边界掩模，以最小化反射区域的影响。此外，我们提出了一种新颖的复杂度评估指标，考虑了网络参数大小、浮点操作和推断帧率。我们的研究旨在显著提高腹腔镜手术的效率和安全性。我们对我们提出的方法进行了全面评估，并与现有解决方案进行了比较。结果表明，我们的方法在保持轻量级的同时确保了深度估计的准确性。

Aug, 2023

基于两阶段遮罩自编码网络的室内深度完整性填充

基于 Transformer 的双步骤网络用于室内深度完成，采用自监督预训练编码器学习有效的潜在表示来填补缺失的深度值，并基于令牌融合机制从 RGB 和不完整的深度图像中完成室内深度重建。

Jun, 2024

多尺度循环 LSTM 与 Transformer 网络用于深度补全

激光雷达深度补全是深度估计的一个新的热门话题，在此任务中，颜色空间和深度空间的特征融合是关键和难点。本文将经典的 LSTM 和 Transformer 模块从自然语言处理迁移到深度补全中并进行相应的重新设计，通过使用遗忘门、更新门、输出门和跳跃门来实现颜色和深度特征的高效融合，并在多个尺度上进行循环优化，最后通过 Transformer 的多头注意力机制进一步融合深度特征。实验证明，我们的方法无需重复的网络结构和后处理步骤，只需在简单的编码器 - 解码器网络结构上添加我们的模块，就能达到最先进的性能。我们的方法在当前主流的自动驾驶 KITTI 基准数据集上排名第一，也可作为其他方法的主干网络，同样能达到最先进的性能。

Sep, 2023

使用内部特征融合的自监督单目深度估计

本文提出了一种基于 HRNet 网络的深度估计网络 ——DIFFNet，它能在下采样和上采样过程中利用语义信息，并通过特征融合和注意力机制提高算法表现，实验结果表明，该方法在 KITTI 基准数据集上优于当前最先进的单目深度估计方法，并具有处理更高分辨率数据的潜力。我们还通过建立具有挑战性案例的测试集提出了额外的评估策略。

Oct, 2021

自监督学习领域不变特征用于深度估计

本文提出一种自监督学习的新训练策略，通过图像转换网络实现在合成和真实领域之间的域不变表示学习，从而提高单张图像深度估计在现实世界中的泛化能力。实验结果表明，该方法在 KITTI 和 Make3D 数据集上均优于现有技术。

Jun, 2021

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022