ROIFormer:用于高效自监督单目深度估计的语义感知关注区 Transformer
本文介绍了一种新的深度估计模型,使用 Vision Transformers 来提取图像中的全局上下文信息,实现对深度估算的改进,最终该模型在标准测试数据集上达到了最优性能。
Nov, 2022
本文提出了在无监督单目深度估计中引入跨域语义信息以提高几何表示的新思路,包括度量学习方法和特征融合模块,并在 KITTI 数据集上全面评估,在弱质地区和物体边界的监督限制下,本文提出的方法优于现有技术。
Aug, 2021
本研究提出了使用特征匹配和转换器架构进行单目自监督深度估计的新方法,通过使用深度离散化的极线采样选择匹配候选项,并通过一系列的自注意力和交叉注意力层来改进预测。该方法可以从视频中单独训练,从而建立自监督单目深度估计的最新技术,并具有一定的泛化性能.
Apr, 2022
该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型,以解决有监督单目深度估计的问题,实验结果表明,该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法,特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。
Mar, 2022
本文提出了一种基于 HRNet 网络的深度估计网络 ——DIFFNet,它能在下采样和上采样过程中利用语义信息,并通过特征融合和注意力机制提高算法表现,实验结果表明,该方法在 KITTI 基准数据集上优于当前最先进的单目深度估计方法,并具有处理更高分辨率数据的潜力。我们还通过建立具有挑战性案例的测试集提出了额外的评估策略。
Oct, 2021
通过利用多个先验知识来增强表示能力,我们提出了一种新颖的自监督单目深度估计模型,以综合提高深度估计的准确性和可靠性。
Jun, 2024
本文研究自监督学习中如何直接运用语义结构来指导几何表示的学习,提出了一种新的基于预训练语义分割网络和像素自适应卷积的架构,并使用两阶段训练过程来克服动态对象上的常见语义偏差。结果表明该方法在所有像素、细节和语义类别上都优于现有方法,实现了自监督单目深度预测的最新水平。
Feb, 2020
研究在自动驾驶和高级驾驶辅助系统下,使用视觉转换器作为新的方法来进行单目深度估计,在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能,同时具有更强的鲁棒性和可扩展性。
Feb, 2022
通过利用语义标记的图像和通过图像变形获得的无监督信号来联合学习语义分割和深度估计,提出了一种半监督的深度估计方法,结果表明在 KITTI 数据集上超过了单目深度估计的先进方法。
Oct, 2018
在这篇论文中,我们提出了一种新颖的 RoI 特征提取器 Semantic RoI Align(SRA),它能够在各种变换下提取不变的 RoI 特征,用于两阶段检测器。我们通过引入语义注意力模块,利用 RoI 内的全局和局部语义关系自适应地确定不同采样区域。我们还提出了动态特征采样器 Dynamic Feature Sampler,根据 RoI 的宽高比动态采样特征,以提高 SRA 的效率。另外,我们引入了一种新的位置嵌入 Area Embedding,通过改进采样区域表示提供更准确的位置信息给 SRA。实验证明,我们的模型在比基准模型轻微计算开销的情况下显著优于其他模型,并具有出色的泛化能力,可以改善各种最先进的主干网络和检测方法的性能。
Dec, 2023