May, 2022

HiViT: 分层视觉 Transformer 遇见掩蔽图像建模

TL;DR本文提出了一种名为 HiViT 的分层视觉转换器的设计,该设计在 MIM 中具有高效性和良好的性能,通过关闭 Swim Transformer 的局部对单元操作并显示层次结构,将蒙版单元序列化为普通视觉变换器,经实证研究表明,在 ImageNet-1K 上运行 MAE,HiViT-B 相对于 ViT-B 的准确率提高了 0.6%,比 Swin-B 快了 1.9 倍,表现提高泛化到检测和分割等下游任务。