Jun, 2023

2-D SSM:用于视觉 Transformer 的通用空间层

TL;DR该研究旨在设计拥有适当 2D 归纳偏倚的计算机视觉模型。通过引入一种多维状态空间模型(SSM)的表现形式,这种方法有效地促进了 Vision Transformers(ViT)的性能。ViT 的新层引入了高效参数化,加速计算和合适的归一化方案,提供了强健的 2D 归纳偏倚特征,甚至即使在添加了轻微量的附加参数和推理时间的情况下仍然有效。