探究用于多标记胸部疾病分类的遮蔽自编码器
使用大规模语言模型和 Transformer 架构,基于 ViT 模型,在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。
May, 2024
本研究探讨了视觉 Transformer 在医学图像分类中的优劣,并发现使用预训练模型时,视觉 Transformer 可以与卷积神经网络媲美,成为 CNN 的一种可行替代方法。
Mar, 2023
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
提出一种用于 3D 医学图像的新型预训练框架 “Mask in Mask(MiM)”,通过学习来自不同尺度的分层视觉标记的辨别性表示,在器官 / 病变 / 肿瘤分割和疾病分类等任务中展现出 MiM 相对于其他自我监督学习方法的优越性能,此外,大规模预训练数据集的扩展进一步提升了 MiM 在下游任务中的表现。
Apr, 2024
我们提出了一种扩展的 Masked Autoencoders (MAEs) 方法,用于自我预训练 3D 医学图像分割任务,通过引入新的拓扑损失、预测 3D 裁剪区域的位置以及与 Vision Transformers (ViTs) 同时进行预训练,实现对几何形状和空间信息的捕捉,并且在五个公开的 3D 分割数据集上进行了大量实验证明了我们方法的有效性。
Jun, 2024
利用 LT-ViT 来从多个尺度聚合信息,实现对胸部 X 光图像进行纯可视化模型训练,其优于基于纯 ViTs 的现有方法,在两个公开 CXR 数据集上表现出最先进的性能,并且对于其他预训练方法具有泛化性且不依赖于模型初始化,并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。
Nov, 2023
通过将 transformer 骨干结构与多分支输出模块相结合,HydraViT 方法提高了胸部 X-ray 图像的多标签分类性能。
Oct, 2023
医学图像分类数据集中的标签噪声严重影响了受监督深度学习方法的训练,削弱了其泛化能力。本文研究了 Vision Transformer (ViT) 相对于 CNN 的鲁棒性,以及其处理医学图像分类中标签噪声的能力,并使用两个医学图像分类数据集进行了实验验证。
Feb, 2024
本文主要通过使用基于掩码图像建模的 MAE pre-training 方法,即 MAE-lite,来为轻量级 ViTs 的 pre-training 提供配方,并与其他 fully-supervised 和 self-supervised pre-training counterparts 进行对比,分析和表明了这种 pre-training 的影响,揭示了 pre-trained 模型的适当学习的底层在数据充足的下游任务中更为重要的作用,并开发了一个 distillation 策略来提高 pre-trained representations,从而实现更好的性能。
May, 2022