Jun, 2023

$E (2)$- 等变视觉转换器

TL;DR本文介绍了一种利用新型有效的位置编码操作符来设计 Group Equivariant Vision Transformer(GE-ViT)模型来解决 Vision Transformer(ViT)模型中的内在等变性学习问题,通过实验在标准基准数据集上得出 GE-ViT 模型比不等变自注意力网络性能更好的结论。