Jan, 2024

VIPTR:一种用于快速高效的场景文本识别的可置换视觉特征提取器

TL;DR本研究提出了一种 VIPTR(VIsion Permutable extractor for fast and efficient scene Text Recognition)方法,它利用具有金字塔结构的视觉语义提取器以及多个自注意层,避免了传统序列解码器的依赖,从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势,在中英文场景文本识别方面取得了领先位置,同时 VIPTR-T(Tiny)在保持与其他轻量级模型相媲美的准确性的基础上,实现了最先进的推理速度,而 VIPTR-L(Large)在保持较低参数和良好推理速度的同时,实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案,将高准确性和高效性相结合,极大地促进了对快速可靠文本识别的现实应用。