基于 Transformer 的 UNet 结构，采用多头交叉注意力跳跃连接以消除扫描文档中的伪影

Jun, 2023

基于 Transformer 的 UNet 结构，采用多头交叉注意力跳跃连接以消除扫描文档中的伪影

Transformer-Based UNet with Multi-Headed Cross-Attention Skip Connections to Eliminate Artifacts in Scanned Documents

David Kreuzer, Michael Munz

TL;DR本研究使用修改后的 UNet 结构和 Swin Transformer Backbone 移除扫描文档中的典型画面伪影和压缩失真等文档中的 Artifacts，通过多头交叉关注跳过连接实现更具选择性地学习抽象级别。模型的性能在压缩误差、画素化及噪音方面得到了改进，合成数据的误差率降低了 53.9％，并可轻松适应新的有损伪影。

Abstract

The extraction of text in high quality is essential for text-based document analysis tasks like Document Classification or Named Entity Recognition. Unfortunately, this is not always ensured, as poor scan quality and the resulting artifacts lead to errors in the Optical Character Recog

text extraction ocr transformer backbone document analysis artifacts

发现论文，激发创造

Swin-Unet: 纯 Transformer 风格的 Unet 模型用于医学图像分割

该研究提出了 Swin-Unet，一种基于 Transformer 的 Unet 用于医学图像分割，它通过层次 Swin Transformer 与 SHIFT 窗口技术来提取上下文特征，使得该纯 Transformer 的编码解码网络在多器官和心脏分割任务方面表现超越传统的基于卷积和变换的方法。

May, 2021

U-Net Transformer：医学图像分割的自注意力和交叉注意力模型

引入了 U-Transformer 网络，结合了用于图像分割的 U 形模型和 Transformer 的自注意和交叉注意力机制，有效地克服了 U-Net 难以对长程上下文交互和空间依赖性建模的问题，在两个腹部 CT 图像数据集上表现出明显的优势。

Mar, 2021

WiTUnet：一种融合 CNN 和 Transformer 的 U 形架构，用于改善特征对齐和本地信息融合

本文介绍了一种名为 WiTUnet 的新型 LDCT 图像去噪方法，该方法利用嵌套的密集跳跃路径代替传统的跳跃连接来改进特征整合，同时在编码器和解码器中增加了局部图像感知增强 (LiPe) 模块以提高局部特征捕获和表示能力；通过广泛的实验比较，WiTUnet 在峰值信噪比 (PSNR)、结构相似度 (SSIM) 和均方根误差 (RMSE) 等关键指标上表现出优越的性能，显著提高了去噪和图像质量。

Apr, 2024

DA-TransUNet：利用 Transformer U-Net 集成空间和通道双重注意力进行医学图像分割

本研究提出了一种名为 DA-TransUNet 的新型深度医学图像分割框架，将 Transformer 和双注意力块引入传统 U 形架构的编码器和解码器中，通过注意力机制和多方面特征提取来增强医学图像分割，并通过实验结果证明 DA-TransUNet 在各个医学图像分割基准测试中显著优于现有方法。

Oct, 2023

UTNet：一种用于医学图像分割的混合 Transformer 架构

本研究提出 UTNet，这是一种简单而强大的混合 Transformer 体系结构，它将 self-attention 集成到卷积神经网络中，以增强医学图像分割，通过在编码器和解码器中应用 self-attention 模块来捕捉不同尺度的长程依赖关系，并提出了一种有效的 self-attention 机制与相对位置编码，从而将 self-attention 操作的复杂度从 $O (n^2)$ 降低到约 $O (n)$。在多标签、多厂商的心脏磁共振成像队列上对 UTNet 进行了评估，所示分割性能优异，对抗最先进的方法表现出很好的鲁棒性，有望在其他医学图像分割中具有广泛的应用前景。

Jul, 2021

通过可学习的跳跃连接缩小 U-Net 中的语义差距：以医学图像分割为例

在医学图像分割中，通过探索 U-Net 中 skip 连接的潜在弱点，我们提出了 UDTransNet 框架，使用 Dual Attention Transformer (DAT) 和 Decoder-guided Recalibration Attention (DRA) 模块来解决编码器和解码器之间的语义差距，从而提高医学图像的分割效果。

Dec, 2023

UCTransNet：基于通道级别的 Transformer 重构 U-Net 跳跃连接

提出了一种名为 UCTransNet 的新语义分割框架，该框架采用注意机制和跨通道特征融合，能够替代传统 U-Net 中的跳跃连接，以实现对复杂医学图像的准确分割。实验结果表明，UCTransNet 在不同数据集和传统架构中具有更精确的分割性能，并较传统算法实现了一定的改进。

Sep, 2021

3D TransUNet：通过视觉 Transformer 提升医学图像分割

通过在 2D TransUNet 体系结构的基础上建立在最先进 nnU-Net 体系结构的基础上，充分探索 Transformers 在编码器和解码器设计中的潜力，我们引入了两个关键组件：1）一个从卷积神经网络（CNN）特征图中令图像块标记化的 Transformer 编码器，从而实现全局上下文的提取；2）一个自适应地利用候选区域和 U-Net 特征之间的交叉注意力进行候选区域的精炼的 Transformer 解码器。我们的研究发现，不同的医学任务受益于不同的体系结构设计。Transformer 编码器在多器官分割中表现出色，其中器官之间的关系至关重要。另一方面，Transformer 解码器在处理小而具有挑战性的分割目标（如肿瘤分割）方面更有益处。大量实验证明了将基于 Transformer 的编码器和解码器集成到 U 型医学图像分割体系结构中的巨大潜力。TransUNet 在各种医学应用中超越竞争对手。

Oct, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

SeUNet-Trans: 医学图像分割的简单而有效的 UNet-Transformer 模型

我们提出了一种简单而有效的 UNet-Transformer（seUNet-Trans）模型，用于医学图像分割，结合了 CNN-based 模型和 Transformer 模型，在多个医学图像分割数据集上进行了广泛实验，显示出优于其他几种先进模型的性能。

Oct, 2023