光学和场景流的注意力多模态融合
多模式深度传感器融合为自动驾驶车辆在各种天气条件下实现视觉理解提供了潜力,本研究提出了一种高效、模块化的 RGB-X 融合网络,通过场景特定的融合模块,实现了利用预训练的单模态模型进行融合,从而使用小型、核心配准的多模态数据集创建联合输入自适应的网络架构,在 RGB - 热成像和 RGB - 门控数据集上表现出了优越性,仅使用少量额外的参数进行融合。
Oct, 2023
本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块,以集成 RGB-Depth 图像的特征,从而提高语义分割的精度和计算效率。实验结果表明,该模型在计算成本和模型大小方面大大超越了现有的最先进模型,并且在准确性方面具有良好的性能。
Dec, 2019
通过提出的多阶段多模态融合模型 RPEFlow,将 RGB 图像、点云和事件相机用于联合光流和场景流估计,并引入注意力融合模块以及互信息正则化项来提高性能。实验结果表明,该模型在合成和真实数据集上优于现有的最先进方法。
Sep, 2023
本文提出了一种新颖的方法,通过学习框架,识别和整合主导的跨模态深度特征,独立计算粗略深度图,并使用置信度损失和多模态融合网络进行端到端的深度估计,从而在各种困难情景中展示了鲁棒的深度估计能力。
Feb, 2024
我们提出了一种自适应融合方法,使用多种传感器,通过卷积神经网络专家的混合来学习权衡不同传感器的预测,该方法可适应于不同光照和摄像机运动模糊等影响。我们测试了该方法在室内和室外的人体检测,并证明了其可适应困难环境,同时,我们还提出了一个新的混合室内外环境中的 RGB-D 数据集,可供参考。
Jul, 2017
本文提出了一种新的方法,使用注意力机制有效地考虑 RGB 和深度之间的相关性,探索了用于确保 RGB 和深度之间有效信息流的内部和交叉相关模块的有效融合策略。实验结果表明,该方法在对象姿态估计方面的表现优于现有方法,并证明了该方法可以为真实世界的机器人抓取任务提供准确的物体姿态估计。
Sep, 2019
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
提出了一种融合红外和可见光图像的端到端相似跟踪框架,这个框架通过特征级别的融合机制,在特征提取、目标估计网络和分类器三个主要部件中提高了单模态组件的表现表现,并在 VOT-RGBT2019 数据集上获得了 0.391 的准确率,进而取得 RGBT210 数据集的最佳表现。
Aug, 2019
本文旨在解决如何有效地融合 RGB-D 信息来进行显著目标检测的关键问题。通过提出一个新的互惠关注模型来融合来自不同模态的注意力和上下文信息,实现高阶和三线性交叉信息互补,从而提高 RGB-D SOD 的模型性能。同时,通过添加选择性关注来重新加权深度相关信息,提高模型的鲁棒性。在两个数据集上的实验验证了该模型的有效性。
Oct, 2020
该研究介绍了一种新的相机运动估计方法,通过场景流集成 RGB-D 图像和惯性数据,旨在在刚性三维环境中准确估计相机运动和惯性测量单元(IMU)状态。通过对合成数据和真实数据进行评估,结果显示这两个传感器的融合相比仅使用视觉数据具有更高的相机运动估计精度。
Apr, 2024