May, 2021

用于快速高效场景文本识别的 Vision Transformer

TL;DR本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR,其基于一种计算和参数高效的视觉变换器(ViT),ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6%(具有数据增强时为 84.2%),可获得 2.4 倍的加速比,只使用 43.4%的参数数量和 42.2%的 FLOPS。