ICCVAug, 2021

从二到一:一种具有视觉语言建模网络的新型场景文本识别器

TL;DR本文提出一种名为 VisionLAN 的可提升文字识别速度与精度的模型,结合视觉和语言信息的 Visual Language Modeling,以直接赋予形象模型带有语言能力,从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断,绕过视觉噪声等干扰因素。本文中的 Occlusion Scene Text 数据集通过缺失部分字符信息的数据,进一步验证了我们的模型在复杂环境下的有效性。