基于方向窗口注意力的医学图像分割

Jun, 2024

基于方向窗口注意力的医学图像分割

Medical Image Segmentation Using Directional Window Attention

Daniya Najiha Abdul Kareem, Mustansar Fiaz, Noa Novershtern, Hisham Cholakkal

TL;DRDwinFormer 是一个层级编码器解码器架构，具有方向窗口（Dwin）注意力和全局自注意力（GSA）用于特征编码，通过在水平、垂直和深度方向分别执行注意力，在输入特征图的这些方向体积中有效地捕捉局部和全局信息，实验证明它在医学图像分割方面优于当前最先进的方法。

Abstract

Accurate segmentation of medical images is crucial for diagnostic purposes, including cell segmentation, tumor identification, and organ localization. Traditional convolutional neural network (CNN)-based approaches struggled to achieve precise segmentation results due to their limited

medical image segmentation convolutional neural network transformer-based approach dwinformer local and global information

发现论文，激发创造

D-Former: 一种用于 3D 医学图像分割的 U 形扩张 Transformer

本文提出了一种称为 Dilated Transformer 的方法，该方法在全球和局部范围内交替捕捉成对的补丁关系进行自我关注。我们基于 Dilated Transformer 的设计构建了一种名为 D-Former 的 U 型编码器 - 解码器分层结构，用于 3D 医学图像分割。实验表明，我们的 D-Former 模型在低计算成本下，从头开始训练，优于各种有竞争力的基于 CNN 或 Transformer 的分割模型。

Jan, 2022

扩张邻域注意力变换器

本文介绍了一种新型 Hierarchical Vision Transformer，Dilated Neighborhood Attention Transformer（DiNAT）及其基于 Dilated Neighborhood Attention（DiNA）的自注意力机制，使其具备全局关联建模和扩大感受野的能力，证明 DiNAT 对常规 Hierarchical Vision Transformer 具有显著的优势，从而实现了在一些特定领域中更好的 Panoptic 分割表现。

Sep, 2022

窗口化注意力在图像压缩中的应用

本文提出了一种基于 Transformer 和注意力机制的对称变压器框架，其中融合了局部感知机制和全局相关特征学习，在图像压缩方面表现出更好的效果。

Mar, 2022

HiFormer: 使用 Transformer 实现的分层多尺度表示，用于医学图像分割

本文提出了一种新的方法 HiFormer，它通过使用 Swin Transformer 模块和基于 CNN 的编码器设计了两种多尺度特征表示来有效地跨越 CNN 和 Transformer 进行医学图像分割。在编码器解码器结构的跳跃连接中，我们提出了 Double-Level Fusion（DLF）模块，以确保从两个上述表示中获得的全局和局部特征的细粒度融合。在各种医学图像分割数据集上的广泛实验表明，HiFormer 在计算复杂度、定量和定性结果方面优于其他基于 CNN、Transformer 和混合方法。

Jul, 2022

R3D-SWIN：应用移位窗口注意力进行单视角三维重建

最近，视觉变换器在各种计算机视觉任务中表现出色，包括体素三维重建。然而，视觉变换器的窗口不是多尺度的，并且窗口之间没有连接，这限制了体素三维重建的准确性。因此，我们提出了一种移位窗口注意力体素三维重建网络。据我们所知，这是第一个将移位窗口注意力应用于体素三维重建的工作。在 ShapeNet 上的实验结果验证了我们的方法在单视图重建方面达到了 SOTA 准确性。

Dec, 2023

MixFormer: 跨窗口与跨维度混合特征

本论文提出了一种名为 MixFormer 的方法，将局部窗口自注意力与深度可分卷积相结合，跨窗口连接建模以扩大感受野，并在通道和空间维度上提供互补线索，从而实现更好的特征混合。在图像分类方面，MixFormer 相比于 RegNet 和 Swin Transformer 表现更好。在 MS COCO，ADE20k 和 LVIS 的 5 项密集预测任务中，其下游任务的性能也明显优于其他替代方案。

Apr, 2022

DS-TransUNet: 医学图像分割的双 Swin Transformer U-Net

本研究提出了 Dual Swin Transformer U-Net (DS-TransUNet) 框架，它是第一次尝试将 Swin Transformer 的优势同时融入到标准 U 形架构的编码器和解码器中，以提高不同医学图像的语义分割质量。实验表明，DS-TransUNet 显著优于现有的医学图像分割方法。

Jun, 2021

MS-Twins: 多尺度深度自注意力网络用于医学图像分割

提出了 MS-Twins（Multi-Scale Twins）分割模型，通过结合不同尺度和级联特征，能更好地捕捉语义和细粒度信息，解决了在医学图像分割中利用自注意力和卷积的最优化问题。在 Synapse 和 ACDC 两个常用数据集上，MS-Twins 相较于现有的网络结构有了显著的进展，在 Synapse 数据集上的性能比 SwinUNet 高出 8％，即使与最佳的完全卷积医学图像分割网络 nnUNet 相比，在 Synapse 和 ACDC 上 MS-Twins 的性能仍然稍有优势。

Dec, 2023

DMFormer：缩小 CNN 和 Vision Transformer 之间的差距

本文提出了一种动态多级注意力机制 (DMA)，它通过多个卷积核大小捕捉输入图像的不同模式，并通过门控机制实现输入自适应权重，然后提出了一种名为 DMFormer 的有效骨干网络，该网络采用了 DMA 替代了视觉变换器中的自我关注机制。在 ImageNet-1K 和 ADE20K 数据集上的广泛实验结果表明，DMFormer 具有先进的性能，优于大小相似的视觉变压器 (ViTs) 和卷积神经网络 (CNNs)。

Sep, 2022

DWFormer: 动态窗口变换器用于语音情感识别

本研究提出了一种基于动态窗口的变压器架构 DWFormer，通过自注意机制动态划分样本窗口，捕捉语音本地的精细的时间重要信息，并考虑窗口间的全局信息交互，实现了在情感识别方面的前沿突破。

Mar, 2023