基于方向窗口注意力的医学图像分割
本文提出了一种称为 Dilated Transformer 的方法,该方法在全球和局部范围内交替捕捉成对的补丁关系进行自我关注。我们基于 Dilated Transformer 的设计构建了一种名为 D-Former 的 U 型编码器 - 解码器分层结构,用于 3D 医学图像分割。实验表明,我们的 D-Former 模型在低计算成本下,从头开始训练,优于各种有竞争力的基于 CNN 或 Transformer 的分割模型。
Jan, 2022
本文介绍了一种新型 Hierarchical Vision Transformer,Dilated Neighborhood Attention Transformer(DiNAT)及其基于 Dilated Neighborhood Attention(DiNA)的自注意力机制,使其具备全局关联建模和扩大感受野的能力,证明 DiNAT 对常规 Hierarchical Vision Transformer 具有显著的优势,从而实现了在一些特定领域中更好的 Panoptic 分割表现。
Sep, 2022
本文提出了一种新的方法 HiFormer,它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中,我们提出了 Double-Level Fusion(DLF)模块,以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明,HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。
Jul, 2022
最近,视觉变换器在各种计算机视觉任务中表现出色,包括体素三维重建。然而,视觉变换器的窗口不是多尺度的,并且窗口之间没有连接,这限制了体素三维重建的准确性。因此,我们提出了一种移位窗口注意力体素三维重建网络。据我们所知,这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。
Dec, 2023
本论文提出了一种名为 MixFormer 的方法,将局部窗口自注意力与深度可分卷积相结合,跨窗口连接建模以扩大感受野,并在通道和空间维度上提供互补线索,从而实现更好的特征混合。在图像分类方面,MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO,ADE20k 和 LVIS 的 5 项密集预测任务中,其下游任务的性能也明显优于其他替代方案。
Apr, 2022
本研究提出了 Dual Swin Transformer U-Net (DS-TransUNet) 框架,它是第一次尝试将 Swin Transformer 的优势同时融入到标准 U 形架构的编码器和解码器中,以提高不同医学图像的语义分割质量。实验表明,DS-TransUNet 显著优于现有的医学图像分割方法。
Jun, 2021
提出了 MS-Twins(Multi-Scale Twins)分割模型,通过结合不同尺度和级联特征,能更好地捕捉语义和细粒度信息,解决了在医学图像分割中利用自注意力和卷积的最优化问题。在 Synapse 和 ACDC 两个常用数据集上,MS-Twins 相较于现有的网络结构有了显著的进展,在 Synapse 数据集上的性能比 SwinUNet 高出 8%,即使与最佳的完全卷积医学图像分割网络 nnUNet 相比,在 Synapse 和 ACDC 上 MS-Twins 的性能仍然稍有优势。
Dec, 2023
本文提出了一种动态多级注意力机制 (DMA),它通过多个卷积核大小捕捉输入图像的不同模式,并通过门控机制实现输入自适应权重,然后提出了一种名为 DMFormer 的有效骨干网络,该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明,DMFormer 具有先进的性能,优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。
Sep, 2022
本研究提出了一种基于动态窗口的变压器架构 DWFormer,通过自注意机制动态划分样本窗口,捕捉语音本地的精细的时间重要信息,并考虑窗口间的全局信息交互,实现了在情感识别方面的前沿突破。
Mar, 2023