RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

Sep, 2023

RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing

Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen...

TL;DRRoadFormer 是一种基于 Transformer 的数据融合网络，可以精确预测道路场景解析中的语义内容。

Abstract

The recent advancements in deep convolutional neural networks have shown significant promise in the domain of road scene parsing. Nevertheless, the existing works focus primarily on freespace detection, with little attention given to hazardous road defects that could compromise both dr

road scene parsing roadformer transformer-based data-fusion network heterogeneous features semantic prediction

发现论文，激发创造

邻域注意力加强 ResUNet 编码器以提高道路提取精度

提出了一种名为 ResUNetFormer 的深度语义分割神经网络，利用残差学习、HetConvs、UNet 和视觉变压器的能力，用于精准道路提取。在公开的马萨诸塞州道路数据集上，统计和视觉结果表明了 ResUNetFormer 比卷积神经网络和视觉变压器更优。

Jun, 2023

OccFormer: 双路径 Transformer 用于基于视觉的 3D 语义占用预测

本文介绍了 OccFormer，一种双路径 Transformer 网络，有效地处理了用于自主驾驶的 3D 立体体素特征，并在 SemanticKITTI 数据集上对语义完整性和 nuScenes 数据集上的 LiDAR 语义分割方面优于现有方法。

Apr, 2023

DUFormer：航拍图像中电力线路分割的一种新型架构

该论文提出了一种用于航空图像中的电力线检测的语义分割算法 DUFormer，该算法采用具有强归纳偏差的卷积神经网络，以及一个重量级令牌编码器，负责重叠特征再挖掘和标记化，结果显示该算法在公开可用的 TTPLA 数据集上的电力线分割任务中达到了最先进水平的表现。

Apr, 2023

DAFormer：用于领域自适应语义分割的网络架构和训练策略的改进

本研究基于最新的神经网络架构研究了无监督域适应（UDA）领域，在语义分割方面揭示了 Transformers 的潜力。基于研究结果，本研究提出了一种新的 UDA 方法 DAFormer，并且通过三种简单却至关重要的训练策略，DAFormer 的实现在 GTA-to-Cityscapes 和 Synthia-to-Cityscapes 语义分割任务中取得了比目前最先进方法更好的表现。

Nov, 2021

U-MixFormer：混合注意力的类 UNet Transformer 进行高效语义分割

我们提出了一种新的变换器解码器 U-MixFormer，基于 U-Net 结构设计的，用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询，我们的方法与以前的变换器方法有所不同。此外，我们创新地混合来自各个编码器和解码器阶段的分层特征图，形成一个统一的键和值表示，从而产生我们独特的混合注意模块。大量实验证明，U-MixFormer 在各种配置上表现出色，并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。

Dec, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

在机器人智能领域中，实现高效和准确的 RGB-D 语义分割是一个关键基石。本文提出 AsymFormer，这是一种面向实时 RGB-D 语义分割的新型网络，通过优化计算资源分配和引入非对称骨干网络，对冗余参数进行了最小化，以实现多模态特征的有效融合。此外，通过重新定义特征选择和提取多模态自相似特征，同时不增加参数数量，以确保在机器人平台上实时执行。最后，使用局部关注引导特征选择（LAFS）模块，通过利用不同模态之间的依赖关系选择性地融合特征。通过在 NYUv2 和 SUNRGBD 数据集上评估该方法，AsymFormer 在 NYUv2 上实现了 52.0％的 mIoU，在 SUNRGBD 上实现了 49.1％的 mIoU。特别地，AsymFormer 在 RTX3090 上实现 65 FPS 的推理速度，在实施混合精度量化后，达到了令人印象深刻的 79 FPS 的推理速度。这显著优于现有的多模态方法，从而证明 AsymFormer 在 RGB-D 语义分割方面能够在高准确度和高效性之间取得平衡。

Sep, 2023

DFormer：重新思考语义分割的 RGBD 表示学习

DFormer 是一种创新的 RGB-D 预训练框架，通过使用一系列 RGB-D 块进行编码，将 RGB 和深度信息编码成可转移的表示，并避免了现有方法中 RGB 预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。在两个常见的 RGB-D 任务上，使用轻量级的解码器头微调预训练的 DFormer，该方法在两个 RGB-D 分割数据集和五个 RGB-D 显着性数据集上以不到当前最佳方法计算成本一半的代价实现了最新的最佳性能。

Sep, 2023

SemanticFormer：使用知识图谱的全局语义交通场景表示方法用于轨迹预测

本文介绍了一种使用混合方法通过对语义交通场景图进行推理来预测多模态轨迹的方法 SemanticFormer。该方法从知识图谱中提取语义元路径的高级信息，并通过多个注意机制的新型流水线对其进行处理，以预测准确的轨迹。所提出的架构包括一个分层异构图编码器，可以捕捉代理之间及代理与道路元素之间的时空和关系信息，以及一个使用概率融合不同编码并解码轨迹的预测器。最后，一个改进模块评估轨迹和速度配置文件的准许元路径，以获得最终的预测轨迹。与现有方法相比，对 nuScenes 基准测试的评估显示出改进的性能。

Apr, 2024

PersFormer：基于透视变换和 OpenLane 基准的 3D 车道检测

PersFormer 是一种新型的端到端基于 Transformer 的单目 3D 车道检测器，该模型通过参考相机参数生成前视局部区域的鸟瞰图特征向量，并采用统一的 2D/3D 车道锚设计和辅助任务来同时检测 2D/3D 车道线，同时释放了针对车道检测以及其他工业相关的自动驾驶方法的大型真实世界 3D 车道数据集 OpenLane，该数据集包含 200,000 帧、880,000 个实例级车道、14 个车道类别以及场景标签和封闭路径对象注释，证明 PersFormer 在 3D 车道检测任务上明显优于竞争基线，并且在 OpenLane 的 2D 任务中与现有技术水平相当。

Mar, 2022