DFormer: 拓扑扩散引导的 Transformer 用于通用图像分割
本文提出了一种称为 Dilated Transformer 的方法,该方法在全球和局部范围内交替捕捉成对的补丁关系进行自我关注。我们基于 Dilated Transformer 的设计构建了一种名为 D-Former 的 U 型编码器 - 解码器分层结构,用于 3D 医学图像分割。实验表明,我们的 D-Former 模型在低计算成本下,从头开始训练,优于各种有竞争力的基于 CNN 或 Transformer 的分割模型。
Jan, 2022
本文中,我们提出了使用最近发展的去噪扩散生成模型建模的掩模先验来提高现有判别方法的语义分割质量。我们发现简单的集成扩散模型到语义分割中是不够的,并且一次差的扩散过程设计可能导致分割性能下降。我们通过多个实验表明,我们的方法在 ADE20K 和 Cityscapes 数据集上达到了较高的定量和定性性能。
Jun, 2023
DFormer 是一种创新的 RGB-D 预训练框架,通过使用一系列 RGB-D 块进行编码,将 RGB 和深度信息编码成可转移的表示,并避免了现有方法中 RGB 预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。在两个常见的 RGB-D 任务上,使用轻量级的解码器头微调预训练的 DFormer,该方法在两个 RGB-D 分割数据集和五个 RGB-D 显着性数据集上以不到当前最佳方法计算成本一半的代价实现了最新的最佳性能。
Sep, 2023
我们发展了一种神经网络架构,以无监督的方式作为去噪扩散模型进行训练,同时学习生成和分割图像。通过去噪扩散目标来推动学习,无需任何注释或有关区域的先验知识进行训练。神经网络的计算瓶颈鼓励去噪网络将输入分成区域,在并行处理中去噪并结合结果。我们训练的模型生成了合成图像,并通过简单检测其内部预测分割来进行语义分割。在没有任何微调的情况下,我们直接将我们的无监督模型应用于通过加噪和随后去噪来分割真实图像的下游任务。实验表明,我们的模型在多个数据集上实现了准确的无监督图像分割和高质量的合成图像生成。
Sep, 2023
本文提出了一个统一的框架,它由两个体系结构组成,称为 UNetFormer,具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练,使用 Medical Segmentation Decathlon(MSD)数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试,并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割,并在 Dice 评分方面优于其他方法。
Apr, 2022
DifFUSER 是一个新的方法,利用扩散模型进行多模态融合,特别适用于三维物体检测和 BEV 地图分割,通过扩散的去噪特性,能够在传感器故障的情况下改进或合成传感器特征,从而提高融合输出的质量。在架构方面,我们采用了层级 BiFPN 结构的 DifFUSER 块,进一步引入了 Gated Self-conditioned Modulated (GSM) 潜在扩散模块以及 Progressive Sensor Dropout Training (PSDT) 范式,以增强扩散过程的条件性和对传感器故障的鲁棒性。我们在 Nuscenes 数据集上进行广泛评估,结果显示 DifFUSER 不仅在 BEV 地图分割任务中取得了 69.1% 的 mIOU 的最新成绩,而且在三维物体检测方面与领先的基于 Transformer 的融合技术具有很强的竞争力。
Apr, 2024
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
提出了 TubeFormer-DeepLab 模型,它是第一次以统一的方式处理多种核心视频分割任务。通过直接预测标注不同值的视频管道,该模型不仅显着简化了视频分割模型,而且在多个视频分割基准测试中取得了最先进的结果。
May, 2022
本研究使用视觉 Transformer 的自注意视觉分组属性,提出了一种新型分层分组变压器(HGFormer),在不同尺度上找到部聚合模块并组合像素以形成对象级别的语义分割结果,比以像素分组的方法和以平坦分组变压器的方法具有显著更强的网络鲁棒性。
May, 2023
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023