LT-ViT:用于多标签胸部 X 射线分类的视觉 Transformer
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
医学图像分割是各种医疗应用中至关重要的一环,能够实现准确的诊断、治疗规划和疾病监测。最近,视觉变换器(ViTs)作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器(HVTs)的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外,还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。
Dec, 2023
本研究通过提出一种简单有效的标签感知对比训练框架 LaCViT 来解决视觉 Transformer 的预训练表示空间各向异性的问题,从而实现更广泛的图像分类任务的有效迁移学习,实验表明 LaCViT 所训练的模型在五个标准图像分类数据集上的表现比原始预训练基线高约 9%的准确率,并且将 LaCViT 应用到我们评估的三个视觉 Transformer 上,都获得了持续的改进。
Mar, 2023
使用大规模语言模型和 Transformer 架构,基于 ViT 模型,在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。
May, 2024
本研究探讨了视觉 Transformer 在医学图像分类中的优劣,并发现使用预训练模型时,视觉 Transformer 可以与卷积神经网络媲美,成为 CNN 的一种可行替代方法。
Mar, 2023
本文提出了一种名为 X-ViT 的视觉变换模型,其采用线性复杂度的自注意力机制代替了传统的二次复杂度算法,在图像分类和密集预测任务中表现优异。
May, 2022
本文介绍了一种基于自编码器预训练的视觉 Transformer 模型(ViT)在医学图像分类任务上的性能优化方法,并探讨了策略和技术详细研究。
Oct, 2022
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022
该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net,实现了类医学图像的体积重建。实验结果表明,该方法在图像配准任务中具有优异的性能。
Apr, 2021
本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法,通过仅使用三种数据增强方式,此方法优于之前的全监督训练方法,并且在图像分类、迁移学习和语义分割等任务中表现出色,同时也为 ViT 的自我监督方法提供了更好的基线。
Apr, 2022