基于 RGB-D 的场景识别翻译 - 识别网络

CVPRApr, 2019

基于 RGB-D 的场景识别翻译 - 识别网络

Translate-to-Recognize Networks for RGB-D Scene Recognition

Dapeng Du, Limin Wang, Huiling Wang, Kai Zhao, Gangshan Wu

TL;DR该研究提出了一种新的模态间转移识别网络 TRecgNet，利用编码器网络共享任务，采用半监督方式利用未标记的数据进行训练，进一步提高了识别网络的准确性。实验证明，TRecgNet 在 RGB-D 场景识别方面的表现具有优越性。

Abstract

cross-modal transfer is helpful to enhance modality-specific discriminative power for scene recognition. To this end, this paper presents a unified framework to integrate the tasks of cross-modal translation and modality-specific recognition, termed as →

cross-modal transfer translate-to-recognize network recognition network unlabeled data semi-supervised

发现论文，激发创造

跨域多模态 RGB-D 场景识别

本文提出了一种自适应景观识别方法，该方法使用 RGB 和深度图像之间的自监督转换，以解决多模态数据集之间的领域转移问题，并证明其在不同相机采集的数据之间具有很强的泛化能力。

Mar, 2021

室内场景标记的多模态循环神经网络与信息传递层

提出了一种新的多模态递归神经网络方法 (Multimodal RNNs) 用于 RGB-D 场景语义分割，它同时优化两个递归神经网络模型的训练，各自从自己以及另外一个模型的传递模式中学习特征，以提取相关的跨模态信息特征，实现了在 RGB 和深度图像数据上的显著优化和竞争性结果。

Mar, 2018

TriTransNet: 基于三元组变换器嵌入网络的 RGB-D 显著目标检测

本文介绍了利用 TriTransNet 实现 RGB-D 显著物体检测的方法，采用了 U-Net 框架、连续的卷积和池化操作生成多级特征，并引入了三个 Transformer 编码器来增强特征的贡献，通过所设计的多种特征处理模块和方法进行实验，可以取得领先水平和竞争力的结果。

Aug, 2021

基于深度 CNN 的 RGB-D 场景识别：从零开始学习优于从 RGB-CNN 转移

本研究利用卷积神经网络和弱监督方法，提出了一种能够在有限深度图像条件下学习具有较强区分性的深度特征，从而实现了 RGB-D 场景识别的最新成果，达到了最好的表现。

Jan, 2018

多适配器 RGBT 跟踪

该论文提出一种多适配器卷积网络（MANet），用于 RGBT 跟踪中的模态共享、模态特定和实例感知特征学习，以及采用并行结构的适配器以减少计算复杂度，与其他 RGB 和 RGBT 跟踪算法相比表现出杰出的性能。

Jul, 2019

鲁棒的 RGB-D 物体识别多模态深度学习

使用卷积神经网络，采用 RGB-D 架构，通过两个不同模式的 CNN 处理流程结合延迟融合网络来识别物体，同时引入多阶段训练方法以及进行数据增强方案，使得处理 RGB-D 图像更加健壮，同时在真实嘈杂环境中取得了最先进的识别结果。

Jul, 2015

X 模态辅助 RGBT 目标跟踪

通过解耦可视目标跟踪为三个不同层次的组成部分，我们提出了一种名为 X-Net 的新型模态协助网络，用于学习鲁棒的多模态特征表示，解决 RGB 和热模态之间巨大差异带来的特征学习障碍，并改善跟踪性能。

Dec, 2023

学习有效的 RGB-D 场景识别表示

该研究介绍一种基于深度学习的 RGB-D 场景识别方法，提出了一种深度学习模型训练的两步骤方法和一种新的 RGB-D 视频数据集，实现了在 RGB-D 图像 (NYUD2 和 SUN RGB-D) 和视频 (ISIA RGB-D) 场景识别方面的最优表现。

Sep, 2018

RGB-D 显著目标检测的跨模态不一致交互网络

通过重新考虑两种模态的重要性，本文提出了一种新的跨模态矛盾交互网络（CDINet），用于 RGB-D SOD。实验结果表明，这种网络在定量和定性上都优于 15 种现有的方法。

Aug, 2021

多模态转移深度学习及其在音视频识别中的应用

这篇论文提出了一种转移学习框架，能将单一模态神经网络的知识迁移到另一个模态的网络上，通过语音数据微调已经训练过的视频识别网络，该方法首先学习抽象表示层中每个网络的类比映射，然后应用神经网络操作进行目标网络的微调，同时保持其拓扑不变，该框架能灵活地适用于任何多模态数据集或已存在的共享基础语义的深度网络。

Dec, 2014