IJCAIApr, 2022

使用单个视觉模型进行场景文本识别

TL;DR本研究提出一种基于补丁式图像记号化框架的单一视觉模型,用于场景文本识别,其通过组成部分级别的混合、合并和 / 或组合,实现全局和局部混合块,以感知字符之间和字符内部的模式,从而通过简单的线性预测识别字符。实验结果表明,在英语和中文场景文本识别任务上,SVTR-L(大型)实现了高竞争准确性,在中文上大幅优于现有的方法,在代码实现方面表现出更快的速度。