基于注意力机制的多模态融合网络用于场景语义补全

AAAIMar, 2020

基于注意力机制的多模态融合网络用于场景语义补全

Attention-based Multi-modal Fusion Network for Semantic Scene Completion

Siqi Li, Changqing Zou, Yipeng Li, Xibin Zhao, Yue Gao

TL;DR本文提出了一种名为 AMFNet 的端到端三维卷积网络，用于从单视图 RGB-D 图像推断出体积三维场景的占用和语义标签。该网络通过融合 2D 语义分割和 3D 语义完成网络的经验以及空间维度的可靠深度线索，学习同时执行有效的 3D 场景完成和语义分割，验证表明在合成 SUNCG-RGBD 数据集和真实 NYUv2 数据集上都取得了明显的优越性。

Abstract

This paper presents an end-to-end 3d convolutional network named attention-based multi-modal fusion network (AMFNet) for the semantic scene completion (SSC) task of inferring the occupancy and semantic labels of

3d convolutional network semantic scene completion multi-modal fusion network rgb-d images residual attention blocks

发现论文，激发创造

语义场景完成的三维门控循环融合

本文针对语义场景完成（SSC）任务中的数据融合问题进行了研究，我们提出了一种 3D 门控递归融合网络（GRFNet），其可以自适应地选择和融合来自深度和 RGB 图像的相关信息，并借助门控和记忆模块。基于单阶段融合，我们进一步提出了一种多阶段融合策略，并在两个基准数据集上进行了广泛的实验，证明了所提出的 GRFNet 在 SSC 中的数据融合方面具有卓越的性能和有效性。

Feb, 2020

释放网络潜力以实现语义场景补全

该研究提出了一种新的语义场景补全框架 - 对抗模态调制网络 (AMMNet)，通过优化梯度更新的方法，解决了单模态特征学习效果不佳和过拟合于有限数据集的两个问题，实验证明 AMMNet 在效果和泛化能力上明显优于最先进的语义场景补全方法。

Mar, 2024

来自单个深度图像的语义场景补全

本文针对通过单视图深度图来获取场景的完整三维体素表示和语义标签的语义场景完成任务，提出了一种端到端三维卷积神经网络 SSCNet，该网络能够同时输出所有摄像机视图锥体中体素的占用和语义标签。SSCNet 使用基于扩张的三维上下文模块来高效地扩展感受野并进行三维上下文学习。实验结果表明，该联合模型比各自解决每个任务的方法表现更好，并且在语义场景完成任务上优于替代方法。

Nov, 2016

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

CSFNet: 用于驾驶场景实时 RGB-X 语义分割的余弦相似度融合网络

本研究提出了余弦相似度融合网络 (CSFNet) 作为实时的 RGB-X 语义分割模型，通过设计余弦相似度注意力融合模块 (CS-AFM) 在不同模态之间有效地整合和融合特征，提高了交叉模态特征在低层的融合，使得高层可以采用单支路网络，从而实现更快速和准确的预测，并在 RGB-D/T/P 语义分割任务中验证了其效果和高效性。

Jul, 2024

SLCF-Net: 基于 3D 循环 U-Net 的顺序式激光雷达 - 摄像机融合的语义场景补全

SLCF-Net 是一种新颖的方法，通过顺序融合 LiDAR 和相机数据来进行语义场景补全任务，从 RGB 图像序列和稀疏的 LiDAR 测量中联合估计场景中的缺失几何和语义信息，通过预训练的 2D U-Net 对图像进行语义分割，并从基于深度的 Depth Anything 中估计密集的深度先验，利用高斯衰减深度先验投影将 2D 图像特征投射到 3D 场景体积中，并使用 3D U-Net 计算体积语义，通过传感器运动传播隐藏的 3D U-Net 状态，并设计了一种新的损失函数以确保时间一致性，在 SemanticKITTI 数据集上评估我们的方法并与领先的语义场景补全方法进行比较，结果表明 SLCF-Net 在所有的语义场景补全指标上表现出色，并展示出很好的时间一致性。

Mar, 2024

ACNet：基于注意力的网络，利用互补特征进行 RGBD 语义分割

本文提出了一种新的方法 ACNet，通过 Attention Complementary Module (ACM) 和三个并行分支的结构，ACNet 能够从不同通道提取更多高质量的特征，在 SUN-RGBD 和 NYUDv2 数据集上得到了更好的表现，特别地，在 NYUDv2 测试集上，ResNet50 取得了 48.3% 的 mIoU 得分，并在 https URL 上发布了源代码和经过训练的分割模型。

May, 2019

EdgeNet: 从单个 RGB-D 图像完成语义场景

本文介绍一种新策略，通过边缘检测和翻转截断有符号距离来在 3D 空间中编码颜色信息，同时提出了 EdgeNet，一种能够处理深度和边缘信息的新型端到端神经网络结构，实验结果表明该方法相比现有技术在真实数据上提高了 6.9 % 的性能表现。

Aug, 2019

利用色彩和深度的语义场景完整性：初步实验

本文研究以 RGB 彩色通道提升 SSCnet 在场景补全和语义标签方面的表现

Feb, 2018

MonoScene: 单目 3D 语义场景完成

MonoScene 提出了一种 3D 语义场景完成（SSC）框架，该框架从单个单眼 RGB 图像推断出场景的密集几何和语义，在 2D 和 3D UNets 的连续 2D 和 3D 特征投影的基础上引入了 3D 上下文关系先验以强制实现空间 - 语义一致性。与先前的研究不同的是，该框架在联合推断其语义的同时解决了 2D 到 3D 的场景重建问题。实验表明，我们在所有指标和数据集上均优于先前的研究，甚至能够虚构出超出镜头视野的逼真场景。

Dec, 2021