Apr, 2024

HSViT:水平可扩展的视觉 Transformer

TL;DR这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT),通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构,以减少模型的层数和参数数量,并促进 ViT 模型在多个节点上的协同训练和推理,从而实现比现有方案高多达 10% 的 top-1 准确率,证明了其在保持归纳偏差方面的优越性。