Dec, 2021

场景文本识别的视觉语义变换器

TL;DR本文提出了一种 Visual-Semantic Transformer 的模型,通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息,然后将语义信息和视觉特征序列组合成伪多域序列,进而通过交互模块增强视觉特征和语义信息之间的相互作用,从而实现文本识别。实验结果表明,该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。