Jun, 2021

VOLO: 视觉展望者用于视觉识别

TL;DR本研究介绍了一种新的注意力机制 - outlook attention,并提出了一个通用的神经网络架构 VOLO 来优化在 ImageNet 分类任务上基于自我注意力的视觉 transformer (ViT) 性能问题,VOLO 在没有额外训练数据的情况下,实现了 87.1%的 top-1 精度并在下游的语义分割任务中取得了良好的效果。