HSViT：水平可扩展的视觉 Transformer

Apr, 2024

HSViT：水平可扩展的视觉 Transformer

HSViT: Horizontally Scalable Vision Transformer

Chenhao Xu, Chang-Tsun Li, Chee Peng Lim, Douglas Creighton

TL;DR这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Abstract

While the vision transformer (ViT) architecture gains prominence in computer vision and attracts significant attention from multimedia communities, its deficiency in prior knowledge (inductive bias) regarding shi

vision transformer inductive bias horizontally scalable vision transformer collaborative training top-1 accuracy

发现论文，激发创造

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

HIRI-ViT：高分辨率输入下的视觉 Transformer 尺度扩展

一种基于高分辨率输入的新型混合主干网络 (HIRI-ViT)，通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建，一个直接以高分辨率特征为输入，但使用更少的卷积操作，另一个首先进行下采样，然后在低分辨率特征上使用更多的卷积操作，通过对 ImageNet、COCO 和 ADE20K 数据集的实验表明了 HIRI-ViT 的优越性。

Mar, 2024

通道视觉变换器：一幅图像值 C x 16 x 16 个词

本文介绍了一种名为 ChannelViT 的模型，通过引入 Hierarchical Channel Sampling 技术对 ViT 进行改进，以增强其在多通道图像领域中的应用能力，并证明了其在分类任务上的性能优于 ViT，即使在测试期间只使用部分输入通道，ChannelViT 仍能良好地推广。同时，通过实验证明，Hierarchical Channel Sampling 作为一种简单直接的技术，可以作为 ViT 训练的有效正则化器，使得 ChannelViT 能够在稀疏传感器条件下，在有限访问所有通道的情况下有效推广，突出了其在稀疏数据情况下的潜力。

Sep, 2023

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

通过分层无监督学习将 Vision Transformer 扩展到千兆像素图像

本文提出了一种新的 ViT 架构 (HIPT)，它利用自我监督学习来学习高分辨率图像表示，并利用 WSI 固有的分层结构进行分层预训练。通过在 33 种癌症类型上对 10,678 个 gigapixel WSI、408,218 个 4096x4096 图像和 104M 个 256x256 图像进行预训练，证明了 HIPT 在癌症亚型划分和生存预测方面优于当前最先进的方法。

Jun, 2022

MobileViT：轻量级、通用、面向移动的视觉 Transformer

本文提出了一种 MobileViT 轻量级通用视觉变换器，将 transformers 视为卷积，可用于移动设备，取得了比 CNN 和 ViT 更好的性能，特别是在对象检测任务上。

Oct, 2021