LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

Nov, 2023

LT-ViT：用于多标签胸部 X 射线分类的视觉 Transformer

LT-ViT: A Vision Transformer for multi-label Chest X-ray classification

Umar Marikkar, Sara Atito, Muhammad Awais, Adam Mahdi

TL;DR利用 LT-ViT 来从多个尺度聚合信息，实现对胸部 X 光图像进行纯可视化模型训练，其优于基于纯 ViTs 的现有方法，在两个公开 CXR 数据集上表现出最先进的性能，并且对于其他预训练方法具有泛化性且不依赖于模型初始化，并且能够实现模型的可解释性而无需使用 grad-cam 及其变种。

Abstract

vision transformers (ViTs) are widely adopted in medical imaging tasks, and some existing efforts have been directed towards vision-language training for →

vision transformers medical imaging tasks chest x-rays lt-vit model interpretability

发现论文，激发创造

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

医学图像分割的视觉 Transformer 近期综述

医学图像分割是各种医疗应用中至关重要的一环，能够实现准确的诊断、治疗规划和疾病监测。最近，视觉变换器（ViTs）作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器（HVTs）的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外，还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。

Dec, 2023

LaCViT: 一种面向视觉变换器的标签感知对比训练框架

本研究通过提出一种简单有效的标签感知对比训练框架 LaCViT 来解决视觉 Transformer 的预训练表示空间各向异性的问题，从而实现更广泛的图像分类任务的有效迁移学习，实验表明 LaCViT 所训练的模型在五个标准图像分类数据集上的表现比原始预训练基线高约 9％的准确率，并且将 LaCViT 应用到我们评估的三个视觉 Transformer 上，都获得了持续的改进。

Mar, 2023

卷积神经网络、ResNet 和视觉 Transformer 在胸部疾病多分类中的比较研究

使用大规模语言模型和 Transformer 架构，基于 ViT 模型，在多标签分类任务中对胸部 X 射线图像进行准确的肺部疾病诊断。

May, 2024

预训练的 ViT 模型在医疗图像中得到了多用途的表示

本研究探讨了视觉 Transformer 在医学图像分类中的优劣，并发现使用预训练模型时，视觉 Transformer 可以与卷积神经网络媲美，成为 CNN 的一种可行替代方法。

Mar, 2023

X-ViT: 高性能线性视觉 Transformer 无 softmax

本文提出了一种名为 X-ViT 的视觉变换模型，其采用线性复杂度的自注意力机制代替了传统的二次复杂度算法，在图像分类和密集预测任务中表现优异。

May, 2022

探究用于多标记胸部疾病分类的遮蔽自编码器

本文介绍了一种基于自编码器预训练的视觉 Transformer 模型（ViT）在医学图像分类任务上的性能优化方法，并探讨了策略和技术详细研究。

Oct, 2022

卷积变形器用于视觉

提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision（CXV）。通过将 Quintic Transformer，Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制，来减少 GPU 使用。CXV 在有限的数据和 GPU 资源（核心，内存，功率）场景下，比其他的架构如 Token mixers（例如 ConvMixer，Fnet 和 MLP Mixer），变换模型（如 ViT，CCT，CvT 和混合 Xformers）以及 ResNets 等，更适用于图像分类任务。

Jan, 2022

ViT-V-Net: 用于无监督容积医学图像配准的视觉变换器

该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net，实现了类医学图像的体积重建。实验结果表明，该方法在图像配准任务中具有优异的性能。

Apr, 2021

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022