SwinDocSegmenter：一种端到端的统一领域自适应变压器用于文档实例分割

May, 2023

SwinDocSegmenter：一种端到端的统一领域自适应变压器用于文档实例分割

SwinDocSegmenter: An End-to-End Unified Domain Adaptive Transformer for Document Instance Segmentation

Ayan Banerjee, Sanket Biswas, Josep Lladós, Umapada Pal

TL;DR本文提供了一个用于端到端的文档图像中的复杂布局的实例级分割的统一 Transformer 编码器 - 解码器架构，并且在对 PubLayNet，PRIMA，Historical Japanese（HJ）和 TableBank 等竞争基准的广泛实验中，表明我们的模型使用 SwinL 骨干网比现有的最先进方法取得更好的分割性能，平均精度分别为 93.72、54.39、84.65 和 98.04。

Abstract

instance-level segmentation of documents consists in assigning a class-aware and instance-aware label to each pixel of the image. It is a key step in document parsing for their understanding. In this paper, we present a unified →

instance-level segmentation document layout transformer encoder-decoder contrastive training semantic reasoning

发现论文，激发创造

DocSegTr: 一个基于实例级端到端的文档图像分割 Transformer

该研究提出了一个基于 Transformer 的模型 ——DocSegTr，用于端到端处理具有复杂排版的文档图像的实例级分割。实验结果表明，该模型对于文档分割表现优于现有的最先进方法，可作为文档图像实例级识别任务的有前途的基准。

Jan, 2022

Swin-Unet: 纯 Transformer 风格的 Unet 模型用于医学图像分割

该研究提出了 Swin-Unet，一种基于 Transformer 的 Unet 用于医学图像分割，它通过层次 Swin Transformer 与 SHIFT 窗口技术来提取上下文特征，使得该纯 Transformer 的编码解码网络在多器官和心脏分割任务方面表现超越传统的基于卷积和变换的方法。

May, 2021

Swin UNETR: 基于 Swin Transformers 的 MRI 图像脑瘤语义分割

利用 Swint UNEt TRansformers 模型和多模 MRI 数据对 3D 颅脑肿瘤进行语义分割，可以转换为序列预测问题，以 5 个不同分辨率提取特征，通过跳过连接连接到 FCNN 解码器，并在 BraTS 2021 分割挑战中表现出优越的性能。

Jan, 2022

语义分割的 Transformer 分割器

本文提出了 Segmenter，一种用于语义分割的 Transformer 模型，利用一种点刀线性解码器或一个 mask transformer 解码器将图像分割为不同的类别，通过对模型参数的分析，表明 Segmenter 在 ADE20K 和 Pascal Context 数据集上具有良好的性能。

May, 2021

DS-TransUNet: 医学图像分割的双 Swin Transformer U-Net

本研究提出了 Dual Swin Transformer U-Net (DS-TransUNet) 框架，它是第一次尝试将 Swin Transformer 的优势同时融入到标准 U 形架构的编码器和解码器中，以提高不同医学图像的语义分割质量。实验表明，DS-TransUNet 显著优于现有的医学图像分割方法。

Jun, 2021

多维统一 Swin Transformer 用于多解剖位置的 3D 病变分割

在肿瘤学研究中，准确的 CT 扫描病灶 3D 分割对于病灶生长动力学的建模至关重要。然而，根据 RECIST 准则，放射科医生通常仅在显示最大横截面面积的轴位切片上勾画每个病灶，并在研究目的上勾画少量的 3D 病灶。因此，我们有大量未标记的 3D 体积和带标签的 2D 图像，以及稀缺的标记的 3D 体积，这使得训练深度学习 3D 分割模型成为一项具有挑战性的任务。本研究提出了一种新模型，称为多维统一的 Swin Transformer (MDU-ST)，用于 3D 病灶分割。MDU-ST 由一个偏移窗口变换器 (Swin-transformer) 编码器和一个卷积神经网络 (CNN) 解码器组成，使其能够适应 2D 和 3D 输入，并在同一编码器中学习相应的语义信息。基于该模型，我们引入了一个三阶段框架：1) 通过自我监督的先验任务利用大量未标记的 3D 病灶体积来学习 Swin-transformer 编码器中病灶解剖学的潜在模式；2) 对 Swin-transformer 编码器进行微调，以使用 2D RECIST 切片执行 2D 病灶分割，学习切片级分割信息；3) 进一步对 Swin-transformer 编码器进行微调，以使用带标签的 3D 体积执行 3D 病灶分割。该网络的性能通过 Dice 相似系数 (DSC) 和 Hausdorff 距离 (HD) 在一个内部的 3D 病灶数据集上进行评估，其中包含来自多个解剖位置的 593 个病灶。所提出的 MDU-ST 相比竞争模型表现出显著改进。该方法可用于进行自动化的 3D 病灶分割以辅助放射组学和肿瘤生长建模研究。本论文已被 IEEE 国际生物医学成像研讨会 (ISBI) 2023 接受。

Sep, 2023

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

Swin Transformer: 使用偏移窗口的分层视觉 Transformer

本文提出了一种新的视觉 Transformer，称为 Swin Transformer，它在计算机视觉领域中作为通用骨干具有很强的能力，包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的，并且模型和代码是公开的。

Mar, 2021

基于改进的 Swin Transformer 的高效肺癌图像分类与分割算法

本文提出了一种基于有效 Transformer 模型的肺癌图像分类和分割方法，将计算机视觉技术应用于医学图像分析，可为医务人员提供高效的技术支持。在多个方面对实验结果进行了评估和比较，并证明该算法可以很好地应用于肺癌分类和分割任务。

Jul, 2022

利用 Swin Transformer 进行局部到全局弱监督语义分割

近年来，计算机视觉领域中的弱监督语义分割使用基于图像级标签的监督引起了广泛关注。本研究探索了使用 Swin Transformer 的 'SWTformer' 来提高初始种子 CAMs 的准确性，通过结合局部和全局视角。

Jan, 2024