预训练通用医学图像变换器

Dec, 2023

Pre-trained Universal Medical Image Transformer

Lingxiao Luo, Xuanzhong Chen, Bingda Tang, Xinsheng Chen, Chengpeng Hu...

TL;DR通过使用自监督学习和空间自适应卷积技术，我们构建了一个通用的医学图像处理模型，可以高效处理各种医学图像数据，并在医学图像分类和分割任务上表现出更好的性能和标签效率。

Abstract

self-supervised learning has emerged as a viable method to leverage the abundance of unlabeled medical imaging data, addressing the challenge of labeled data scarcity in medical image analysis. In particular, mas

self-supervised learning medical imaging masked image modeling spatially adaptive convolution visual token reconstruction

发现论文，激发创造

MiM: 3D 医学图像分析的层叠掩模自监督预训练

提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask（MiM）”，通过学习来自不同尺度的分层视觉标记的辨别性表示，在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能，此外，大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。

Apr, 2024

利用遮盖图像建模来改善受监督的表征学习

通过将 MIM 集成到现有的监督训练方法中，我们设计了一种简单而有效的方案，通过在视觉转换图像编码器上添加一个浅层的基于 Transformer 的解码器，并引入一个基于遮蔽图像输入的 MIM 任务，来改善下游任务的学习表示质量，如分类、图像检索和语义分割。

Dec, 2023

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

本文提出了一种名为 HiViT 的分层视觉转换器的设计，该设计在 MIM 中具有高效性和良好的性能，通过关闭 Swim Transformer 的局部对单元操作并显示层次结构，将蒙版单元序列化为普通视觉变换器，经实证研究表明，在 ImageNet-1K 上运行 MAE，HiViT-B 相对于 ViT-B 的准确率提高了 0.6％，比 Swin-B 快了 1.9 倍，表现提高泛化到检测和分割等下游任务。

May, 2022

Swin Transformer 自监督预训练用于三维医学图像分析

本文介绍了一种自我监督学习框架，使用适合医学图像分析的代理任务，成功地在各种人体器官的公开可用的 CT 图像上预训练模型，并在医学分割基准数据集上进行了微调，实现了最先进的匹配结果。

Nov, 2021

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023

基于遮罩的图像建模技术在三维医学图像分析中的应用进展

本文研究了遮蔽图像建模技术在医学三维图像分析中的应用，发现其相比基于对比学习的方法能够更快地进行监督学习并达到更高的精度，使用高遮蔽率和相对较小的块大小预测原始像素值是医学图像建模的一项重要自监督预训练任务，轻量级的解码器或投影头设计能够加快训练速度并降低成本，而 MIM 方法在不同的图像分辨率和标签数据比例下都具有良好的效果。

Apr, 2022

MIMIC：蒙面图像预训练并混合对比细调用于面部表情识别

利用自监督学习方法在中等规模的图像数据集上，对视觉 Transformer 进行预训练，并通过对比微调的方式有效减少面部数据集和面部表情识别数据集之间的领域差异，实现更好的表征学习。

Jan, 2024

使用遮蔽图像建模发挥纯 Transformer 视觉模型在目标检测中的作用

本文提出了 MIMDet 检测器，采用预处理的 ViT 编码器作为检测器基础，通过嵌入卷积中间特征构建多尺度表示，最终结果比采用较为保守微调的 ViT 检测器在 COCO 上优于 2.5 个盒子 AP 和 2.6 个掩码 AP，并且收敛速度更快。

Apr, 2022

架构无关的遮蔽图像建模 -- 从 ViT 回到 CNN

本文提出了一种基于蒙版图像建模的框架，即 A^2MIM，可用于 Transformers 和 CNNs 网络，通过对补丁之间的相互作用的研究发现蒙版图像建模实质上教授了模型更好地处理中阶交互和提取通用特征的能力，并通过大量实验证明了该方法在不需要显式设计的情况下学习到更好的表示，并赋予骨干模型更强的能力，以适应于不同的下游任务。

May, 2022

预训练的 ViT 模型在医疗图像中得到了多用途的表示

本研究探讨了视觉 Transformer 在医学图像分类中的优劣，并发现使用预训练模型时，视觉 Transformer 可以与卷积神经网络媲美，成为 CNN 的一种可行替代方法。

Mar, 2023