May, 2023

遮盖和置乱隐式上下文学习用于场景文本识别

TL;DR本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法,通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中,引入特定数量的掩码标记来集成 MLM,实验结果表明,该模型在标准基准测试中使用 AR 和 NAR 解码程序均获得了最先进的性能。