DFormer：重新思考语义分割的 RGBD 表示学习

Sep, 2023

DFormer：重新思考语义分割的 RGBD 表示学习

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation

Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng...

TL;DRDFormer 是一种创新的 RGB-D 预训练框架，通过使用一系列 RGB-D 块进行编码，将 RGB 和深度信息编码成可转移的表示，并避免了现有方法中 RGB 预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。在两个常见的 RGB-D 任务上，使用轻量级的解码器头微调预训练的 DFormer，该方法在两个 RGB-D 分割数据集和五个 RGB-D 显着性数据集上以不到当前最佳方法计算成本一半的代价实现了最新的最佳性能。

Abstract

We present dformer, a novel rgb-d pretraining framework to learn transferable representations for rgb-d segmentation tasks. →

dformer rgb-d pretraining rgb-d segmentation backbone rgb-d representations

发现论文，激发创造

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

在机器人智能领域中，实现高效和准确的 RGB-D 语义分割是一个关键基石。本文提出 AsymFormer，这是一种面向实时 RGB-D 语义分割的新型网络，通过优化计算资源分配和引入非对称骨干网络，对冗余参数进行了最小化，以实现多模态特征的有效融合。此外，通过重新定义特征选择和提取多模态自相似特征，同时不增加参数数量，以确保在机器人平台上实时执行。最后，使用局部关注引导特征选择（LAFS）模块，通过利用不同模态之间的依赖关系选择性地融合特征。通过在 NYUv2 和 SUNRGBD 数据集上评估该方法，AsymFormer 在 NYUv2 上实现了 52.0％的 mIoU，在 SUNRGBD 上实现了 49.1％的 mIoU。特别地，AsymFormer 在 RTX3090 上实现 65 FPS 的推理速度，在实施混合精度量化后，达到了令人印象深刻的 79 FPS 的推理速度。这显著优于现有的多模态方法，从而证明 AsymFormer 在 RGB-D 语义分割方面能够在高准确度和高效性之间取得平衡。

Sep, 2023

DFormer: 拓扑扩散引导的 Transformer 用于通用图像分割

本文介绍了一种名为 DFormer 的方法，用于实现全局图像分割，该方法将全局图像分割任务视为使用扩散模型的降噪过程，在地面真实掩模上添加各个层次的高斯噪声，然后学习模型从损坏掩模中预测降噪掩模，最后使用基于扩散的解码器逐渐执行掩模预测，并直接从一组随机生成的蒙版中预测掩模和相应类别。

Jun, 2023

Mask3D：通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer

提出了一种名为 Mask3D 的预训练方法，可以将现有的大规模 RGB-D 数据应用于自监督预训练中，将 3D 先验嵌入到 2D 的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

基于 RGB-D 图像学习丰富特征的物体检测和分割

本文研究使用语义丰富的图像和深度特征进行 RGB-D 图像目标检测问题。我们提出了一种新的地心嵌入深度图像的方法，该方法编码了每个像素相对于地面的高度和重力角度，以及水平视差。我们证明了这种地心嵌入方法比使用原始深度图像更适用于使用卷积神经网络进行特征表示学习。最后，我们使用对象检测器的输出在现有的超像素分类框架中进行语义场景分割，并在我们研究的对象类别中实现了 24％的相对改进。

Jul, 2014

RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

RoadFormer 是一种基于 Transformer 的数据融合网络，可以精确预测道路场景解析中的语义内容。

Sep, 2023

面向高效 RGB-D 语义分割的空间信息引导自适应上下文感知网络

提出了一种有效的轻量级编码器 - 解码器网络以及其他相关模块，用于在移动机器人中进行 RGB-D 语义分割，通过跨模态相关性和补充线索可以准确提取多层次 RGB-D 特征，实验结果表明该方法在分割准确性、推理时间和参数方面具有更好的权衡。

Aug, 2023

XFormer: 快速准确的单目三维人体捕捉

XFormer 是一种新型的人体网格和动作捕捉方法，能够仅用单目图像即可实现在普通 CPU 上的实时性能，并能够高效地训练于多种数据集，其关键在于跨模态的 transformer block。

May, 2023

ALSTER：一种用于在线 3D 语义重建的本地时空专家

我们提出了一种在线的三维语义分割方法，可以从连续的 RGB-D 帧流中增量重建三维语义地图，适用于具有实时约束的场景，例如机器人技术或混合现实。我们的方法通过联合估计每帧的几何和语义标签来有效提取输入 RGB-D 视频流的信息，并利用 2D 输入和局部 3D 领域的差异进行对语义实体的推理，进而预测场景的增量更新并整合到全局场景表示中，实验结果表明我们的方法相对于现有的在线方法在本地区域产生了改进，并且展示了互补信息可以提升性能的证据。

Nov, 2023

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

基于三维卷积神经网络的 RGB-D 显著性目标检测

该研究提出了一种名为 RD3D 的深度学习模型，其采用前编码器阶段的预聚合和后解码器阶段的深层特征融合来促进 RGB 和深度流的充分融合，并在 RGB-D 显着目标检测模型方面表现优于 14 种先进模型。

Jan, 2021