Swin3D: 用于 3D 室内场景理解的预训练 Transformer 骨干网络

Apr, 2023

Swin3D: 用于 3D 室内场景理解的预训练 Transformer 骨干网络

Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan...

TL;DR本研究提出了一种基于 3D Swin transformer 的预训练 3D backbone——Swin3D，并结合大型结构化数据集 Structured3D 进行了预训练。研究发现，在 3D 室内场景理解方面，Swin3D 先于所有现有技术，并表现出较好的普适性和优越性能，预训练 3D backbone 能够对 3D 识别任务产生巨大作用。

Abstract

Pretrained backbones with fine-tuning have been widely adopted in 2D vision and natural language processing tasks and demonstrated significant advantages to task-specific networks. In this paper, we present a pretrained 3d backbone, named →

pretrained 3d backbone swin3d indoor scene understanding structured3d dataset point signals

发现论文，激发创造

Swin3D++：3D 室内场景理解的有效多源预训练

在本研究中，我们发现了 3D 室内场景数据集之间的领域差异的主要来源，并提出了基于 Swin3D 的增强架构 Swin3D++，用于对多源 3D 点云进行高效预训练。Swin3D++ 引入了领域特定机制来解决领域差异，并增强了在多源预训练中的网络能力。此外，我们设计了一种简单的源增强策略来增加预训练数据规模并促进监督预训练。我们验证了我们的设计的有效性，并展示了 Swin3D++ 在典型室内场景理解任务上超越了最先进的 3D 预训练方法。

Feb, 2024

Swin Transformer 自监督预训练用于三维医学图像分析

本文介绍了一种自我监督学习框架，使用适合医学图像分析的代理任务，成功地在各种人体器官的公开可用的 CT 图像上预训练模型，并在医学分割基准数据集上进行了微调，实现了最先进的匹配结果。

Nov, 2021

Mask3D：通过学习掩码的 3D 先验知识预训练 2D 视觉 Transformer

提出了一种名为 Mask3D 的预训练方法，可以将现有的大规模 RGB-D 数据应用于自监督预训练中，将 3D 先验嵌入到 2D 的学习特征中，并对多个场景理解任务产生了改进，尤其是语义分割。

Feb, 2023

多维统一 Swin Transformer 用于多解剖位置的 3D 病变分割

在肿瘤学研究中，准确的 CT 扫描病灶 3D 分割对于病灶生长动力学的建模至关重要。然而，根据 RECIST 准则，放射科医生通常仅在显示最大横截面面积的轴位切片上勾画每个病灶，并在研究目的上勾画少量的 3D 病灶。因此，我们有大量未标记的 3D 体积和带标签的 2D 图像，以及稀缺的标记的 3D 体积，这使得训练深度学习 3D 分割模型成为一项具有挑战性的任务。本研究提出了一种新模型，称为多维统一的 Swin Transformer (MDU-ST)，用于 3D 病灶分割。MDU-ST 由一个偏移窗口变换器 (Swin-transformer) 编码器和一个卷积神经网络 (CNN) 解码器组成，使其能够适应 2D 和 3D 输入，并在同一编码器中学习相应的语义信息。基于该模型，我们引入了一个三阶段框架：1) 通过自我监督的先验任务利用大量未标记的 3D 病灶体积来学习 Swin-transformer 编码器中病灶解剖学的潜在模式；2) 对 Swin-transformer 编码器进行微调，以使用 2D RECIST 切片执行 2D 病灶分割，学习切片级分割信息；3) 进一步对 Swin-transformer 编码器进行微调，以使用带标签的 3D 体积执行 3D 病灶分割。该网络的性能通过 Dice 相似系数 (DSC) 和 Hausdorff 距离 (HD) 在一个内部的 3D 病灶数据集上进行评估，其中包含来自多个解剖位置的 593 个病灶。所提出的 MDU-ST 相比竞争模型表现出显著改进。该方法可用于进行自动化的 3D 病灶分割以辅助放射组学和肿瘤生长建模研究。本论文已被 IEEE 国际生物医学成像研讨会 (ISBI) 2023 接受。

Sep, 2023

PonderV2：铺设通向通用预训练范式的 3D 基础模型之路

通过可微分神经渲染，我们提出了一个新的通用方法来学习点云表示，实现了 3D 和 2D 之间的无缝集成，并在室内和室外场景中的多个任务中实现了卓越的性能和持续改进。

Oct, 2023

使用在自然图像上预训练的 2D 视觉 Transformer 增强 3D 神经元分割

通过在大规模自然图像上预训练的 2D 视觉 Transformer 模型，初始化基于 Transformer 的 3D 神经元分割模型，建立了丰富的自然图像与稀有神经元图像之间的知识共享连接，以提高 3D 神经元分割的效能。

May, 2024

Swin UNETR: 基于 Swin Transformers 的 MRI 图像脑瘤语义分割

利用 Swint UNEt TRansformers 模型和多模 MRI 数据对 3D 颅脑肿瘤进行语义分割，可以转换为序列预测问题，以 5 个不同分辨率提取特征，通过跳过连接连接到 FCNN 解码器，并在 BraTS 2021 分割挑战中表现出优越的性能。

Jan, 2022

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

SwinMM: Swin 变换器的蒙版多视图用于 3D 医学图像分割

通过引入多视角信息和自监督学习，本研究提出了一种名为 SwinMM 的新型多视角流水线，以提高医学图像分割预训练模型的准确性和数据效率。

Jul, 2023

Swin Transformer 的自监督跨模态预训练

通过增强 Swin Transformer，我们的模型 SwinFUSE (Swin 多模态融合的无监督增强) 在医学影像领域从不同的影像模态中学习，提升了下游性能，并展现出了对领域变化的适应性以及显著的泛化能力。

May, 2024