预训练的 ViT 模型在医疗图像中得到了多用途的表示
本文探讨在医学图像诊断领域中,卷积神经网络和视觉 Transformer 哪一种更优秀,发现使用预训练的视觉 Transformer 模型(尤其是自监督预训练)可以优化诊断性能。
Aug, 2021
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
医学图像分割是各种医疗应用中至关重要的一环,能够实现准确的诊断、治疗规划和疾病监测。最近,视觉变换器(ViTs)作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器(HVTs)的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外,还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。
Dec, 2023
使用大规模语言模型和 Transformer 架构,基于 ViT 模型,在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。
May, 2024
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024
对卷积神经网络(CNN)和视觉 Transformer(ViT)在图像分类领域的比较分析进行了研究,特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集,研究了 CNN 和 ViT 的独特属性。研究发现,CNN 长期以来一直是图像分类的基石,而 ViT 引入了一种创新的自注意机制,可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别,同时研究了使用这两种架构的最新方法,旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性,因为 CNN 擅长识别局部模式,而 ViT 擅长抓住整体上下文,这使得它们的组合成为提高图像分类性能的一种有前途的策略。
Jun, 2024
该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net,实现了类医学图像的体积重建。实验结果表明,该方法在图像配准任务中具有优异的性能。
Apr, 2021
本研究探索了视觉 Transformer 在数字病理学全幻灯片图像中,用于四种组织类型的肿瘤检测和组织类型识别。实验结果表明,在大量未标注全幻灯片图像的预训练下,视觉 Transformer 在肿瘤检测方面比 ResNet18 表现稍好。
Jun, 2022