3D-EffiViTCaps: 用胶囊结构增强的 3D 高效视觉 Transformer 进行医学图像分割

Mar, 2024

3D-EffiViTCaps: 用胶囊结构增强的 3D 高效视觉 Transformer 进行医学图像分割

3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation

Dongwei Gan, Ming Chang, Juan Chen

TL;DR通过结合 3D 胶囊块和 3D EfficientViT 块，我们提出了一种名为 3D-EffiViTCaps 的 U 形 3D 编码器 - 解码器网络，该网络用于医学图像分割（MIS），并在多个数据集上验证了其性能和效率。

Abstract

medical image segmentation (MIS) aims to finely segment various organs. It requires grasping global information from both parts and the entire image for better segmenting, and clinically there are often certain requirements for segmentation efficiency. →

medical image segmentation convolutional neural networks capsule networks vision transformer 3d-effivitcaps

发现论文，激发创造

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

SegFormer3D: 3D 医学图像分割的高效 Transformer

SegFormer3D 是一种记忆高效的分层 Transformer，在 3D 医学图像分割中拥有比当前最先进模型更少的参数和更低的 GFLOPS，并在 Synapse、BRaTs 和 ACDC 等广泛使用的数据集上取得竞争性结果。

Apr, 2024

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

本研究提出一种高速的视觉 Transformer 模型 EfficientViT，通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023

Next-ViT：面向现实工业场景的下一代视觉 Transformer

本文提出 Next-ViT 模型，使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息，以加速多种视觉任务的表现，同时保持与最先进的 CNN-Transformer 混合框架的可比性，可用于实际工业场景中的高效部署。

Jul, 2022

用于胸部 X 射线和胃肠道图像分类的视觉 Transformer

使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术，在三个医学图像数据集上比较了它们的表现，并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较，在分类不同的解剖结构、所见和异常方面，我们的 Transformer 模型优于或更有效，比 CNN 基于的方法有所改进，建议将其用作算法开发的新基准算法。

Apr, 2023

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

MaxViT-UNet: 医学图像分割的多轴注意力

提出了 MaxViT-UNet，一种基于编码器 - 解码器的混合视觉 Transformer，用于医学图像分割，其使用多轴自注意力机制实现了胞核区域的准确分割，并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。

May, 2023

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021