Oct, 2023

ViR: 视觉记忆网络

TL;DR基于自注意力机制的视觉转换器(ViTs)因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注,然而,其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发,我们提出了一种新的计算机视觉模型,命名为视觉保留网络(ViR),具有双并行和循环结构,以在快速推理和并行训练之间达到最佳平衡,并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法,我们通过大量实验证实了 ViR 的有效性,并提供了代码和预训练模型的公开获取。