揭示深度：一种多模态融合框架用于挑战场景

Feb, 2024

揭示深度：一种多模态融合框架用于挑战场景

Unveiling the Depths: A Multi-Modal Fusion Framework for Challenging Scenarios

Jialei Xu, Xianming Liu, Junjun Jiang, Kui Jiang, Rui Li...

TL;DR本文提出了一种新颖的方法，通过学习框架，识别和整合主导的跨模态深度特征，独立计算粗略深度图，并使用置信度损失和多模态融合网络进行端到端的深度估计，从而在各种困难情景中展示了鲁棒的深度估计能力。

Abstract

monocular depth estimation from rgb images plays a pivotal role in 3D vision. However, its accuracy can deteriorate in challenging environments such as nighttime or adverse weather conditions. While →

monocular depth estimation rgb images long-wave infrared cameras multi-modal fusion network robust depth estimation

发现论文，激发创造

一种多模式用于单模式视觉地点分类的方法

本文提出一种使用伪深度测量的多模态 RGB-D 分类方法，通过多传感器融合方法和最新的域不变单目深度估计技术，克服了单模态 RGB 图像分类易受空间外观变化以及季节、天气、照明等域变化干扰导致精度下降的问题，并通过公共 NCLT 数据集进行跨域场景实验，证明了所提出的分类框架的有效性。

May, 2023

跨域多模态 RGB-D 场景识别

本文提出了一种自适应景观识别方法，该方法使用 RGB 和深度图像之间的自监督转换，以解决多模态数据集之间的领域转移问题，并证明其在不同相机采集的数据之间具有很强的泛化能力。

Mar, 2021

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

光学和场景流的注意力多模态融合

通过使用深度神经网络，并在不同的网络级别中应用自注意力机制以及交叉注意力机制，我们提出了一种名为 FusionRAFT 的方法，实现了早期传感器模态（RGB 和深度）之间的信息融合，以解决 RGB 信息不可靠的问题，在主动配准中取得了比最近方法更好的性能。

Jul, 2023

分层膨胀卷积和软加权和推理的单目深度估计

本文提出了一种利用深度学习解决复杂多物体单目深度估计问题的端到端学习框架，通过将单目深度估计表述为一种多类别密集标注任务以及采用软加权和推断方法等策略，实现了对多尺度深度信息的有效利用，降低了量化误差并提高了方法的鲁棒性。实验结果表明，该方法在 NYU Depth V2 数据集上表现优于当前最先进方法。

Aug, 2017

UAMD-Net: 一种用于稠密深度补全的统一自适应多模态神经网络

提出了一种新的多模态神经网络 UAMD-Net，通过融合双目立体匹配和稀疏点云的弱约束进行深度完善，并使用新的训练策略 Modal-dropout 使得网络能够适应多种模态输入条件，该方法在 KITTI 深度完善基准测试中的实验表明其能够产生鲁棒的结果，并优于其他最先进的方法。

Apr, 2022

基于相关融合的 6D 姿态估计

本文提出了一种新的方法，使用注意力机制有效地考虑 RGB 和深度之间的相关性，探索了用于确保 RGB 和深度之间有效信息流的内部和交叉相关模块的有效融合策略。实验结果表明，该方法在对象姿态估计方面的表现优于现有方法，并证明了该方法可以为真实世界的机器人抓取任务提供准确的物体姿态估计。

Sep, 2019

通过投影网络对具有异构维度的数据进行深度多模态融合

本研究提出了一种新颖的基于深度学习的多模态数据融合框架，具有异构维度（例如 3D+2D）的兼容定位任务的能力，并在地理萎缩和视网膜血管分割任务上取得了优于现有单模态方法的结果。

Feb, 2024

MFuseNet：学习多视角融合的鲁棒深度估计

本研究提出了一种基于多视角视觉系统的方法，使用低成本单目 RGB 相机获得准确的深度估计，通过多张水平或垂直对齐的图像并利用新的启发式方法和鲁棒学习方法来融合多个代价体之间的数据以提高深度估计的性能，实验结果表明该方法优于传统的二帧立体匹配方法。

Aug, 2021

自主驾驶的单视图和多视图深度的自适应融合

本文提出了一个鲁棒性评估基准来评估在各种嘈杂的相机位姿设置下深度估计系统，同时提出了一个自适应融合深度估计系统，通过动态选择两个分支之间的高置信度区域进行融合，以实现鲁棒和准确的深度估计。该方法在鲁棒性测试中优于现有的多视图和融合方法，并在挑战性基准（KITTI 和 DDAD）上实现了最先进的性能，假设具有准确的位姿估计。

Mar, 2024