Jun, 2023
2-D SSM:用于视觉 Transformer 的通用空间层
2-D SSM: A General Spatial Layer for Visual Transformers
Ethan Baron, Itamar Zimerman, Lior Wolf
TL;DR该研究旨在设计拥有适当 2D 归纳偏倚的计算机视觉模型。通过引入一种多维状态空间模型(SSM)的表现形式,这种方法有效地促进了 Vision Transformers(ViT)的性能。ViT 的新层引入了高效参数化,加速计算和合适的归一化方案,提供了强健的 2D 归纳偏倚特征,甚至即使在添加了轻微量的附加参数和推理时间的情况下仍然有效。