光学和场景流的注意力多模态融合

Jul, 2023

光学和场景流的注意力多模态融合

Attentive Multimodal Fusion for Optical and Scene Flow

Youjie Zhou, Guofeng Mei, Yiming Wang, Fabio Poiesi, Yi Wan

TL;DR通过使用深度神经网络，并在不同的网络级别中应用自注意力机制以及交叉注意力机制，我们提出了一种名为 FusionRAFT 的方法，实现了早期传感器模态（RGB 和深度）之间的信息融合，以解决 RGB 信息不可靠的问题，在主动配准中取得了比最近方法更好的性能。

Abstract

This paper presents an investigation into the estimation of optical and scene flow using rgbd information in scenarios where the RGB modality is affected by noise or captured in →

optical and scene flow rgbd information noise dark environments fusionraft

发现论文，激发创造

基于场景特定融合模块的 RGB-X 物体检测

多模式深度传感器融合为自动驾驶车辆在各种天气条件下实现视觉理解提供了潜力，本研究提出了一种高效、模块化的 RGB-X 融合网络，通过场景特定的融合模块，实现了利用预训练的单模态模型进行融合，从而使用小型、核心配准的多模态数据集创建联合输入自适应的网络架构，在 RGB - 热成像和 RGB - 门控数据集上表现出了优越性，仅使用少量额外的参数进行融合。

Oct, 2023

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

RPEFlow: RGB-PointCloud-Event 模态多模融合光流与场景流估计

通过提出的多阶段多模态融合模型 RPEFlow，将 RGB 图像、点云和事件相机用于联合光流和场景流估计，并引入注意力融合模块以及互信息正则化项来提高性能。实验结果表明，该模型在合成和真实数据集上优于现有的最先进方法。

Sep, 2023

揭示深度：一种多模态融合框架用于挑战场景

本文提出了一种新颖的方法，通过学习框架，识别和整合主导的跨模态深度特征，独立计算粗略深度图，并使用置信度损失和多模态融合网络进行端到端的深度估计，从而在各种困难情景中展示了鲁棒的深度估计能力。

Feb, 2024

智能选择：自适应多模态融合在不稳定环境下的物体检测

我们提出了一种自适应融合方法，使用多种传感器，通过卷积神经网络专家的混合来学习权衡不同传感器的预测，该方法可适应于不同光照和摄像机运动模糊等影响。我们测试了该方法在室内和室外的人体检测，并证明了其可适应困难环境，同时，我们还提出了一个新的混合室内外环境中的 RGB-D 数据集，可供参考。

Jul, 2017

基于相关融合的 6D 姿态估计

本文提出了一种新的方法，使用注意力机制有效地考虑 RGB 和深度之间的相关性，探索了用于确保 RGB 和深度之间有效信息流的内部和交叉相关模块的有效融合策略。实验结果表明，该方法在对象姿态估计方面的表现优于现有方法，并证明了该方法可以为真实世界的机器人抓取任务提供准确的物体姿态估计。

Sep, 2019

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

多模态融合的端到端 RGB-T 跟踪

提出了一种融合红外和可见光图像的端到端相似跟踪框架，这个框架通过特征级别的融合机制，在特征提取、目标估计网络和分类器三个主要部件中提高了单模态组件的表现表现，并在 VOT-RGBT2019 数据集上获得了 0.391 的准确率，进而取得 RGBT210 数据集的最佳表现。

Aug, 2019

学习选择性互注意力和对比度用于 RGB-D 显著性检测

本文旨在解决如何有效地融合 RGB-D 信息来进行显著目标检测的关键问题。通过提出一个新的互惠关注模型来融合来自不同模态的注意力和上下文信息，实现高阶和三线性交叉信息互补，从而提高 RGB-D SOD 的模型性能。同时，通过添加选择性关注来重新加权深度相关信息，提高模型的鲁棒性。在两个数据集上的实验验证了该模型的有效性。

Oct, 2020

基于 RGB-D 和惯性场景流的相机运动估计

该研究介绍了一种新的相机运动估计方法，通过场景流集成 RGB-D 图像和惯性数据，旨在在刚性三维环境中准确估计相机运动和惯性测量单元（IMU）状态。通过对合成数据和真实数据进行评估，结果显示这两个传感器的融合相比仅使用视觉数据具有更高的相机运动估计精度。

Apr, 2024