3D-EffiViTCaps: 用胶囊结构增强的 3D 高效视觉 Transformer 进行医学图像分割
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
SegFormer3D 是一种记忆高效的分层 Transformer,在 3D 医学图像分割中拥有比当前最先进模型更少的参数和更低的 GFLOPS,并在 Synapse、BRaTs 和 ACDC 等广泛使用的数据集上取得竞争性结果。
Apr, 2024
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。
May, 2023
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在持续学习的环境下实现近乎零遗忘。实验结果表明,SegViT 优于当前流行的语义分割方法。
Jun, 2023
本文提出 Next-ViT 模型,使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息,以加速多种视觉任务的表现,同时保持与最先进的 CNN-Transformer 混合框架的可比性,可用于实际工业场景中的高效部署。
Jul, 2022
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。
Dec, 2021
提出了 MaxViT-UNet,一种基于编码器 - 解码器的混合视觉 Transformer,用于医学图像分割,其使用多轴自注意力机制实现了胞核区域的准确分割,并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。
May, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。
Sep, 2021