CVPRMar, 2021

像人类一样阅读:自主、双向和迭代式的场景文本识别语言建模

TL;DR提出了一种自主的、双向的、迭代的 ABINet 模型用于场景文本识别,通过阻塞视觉和语言模型之间的梯度流来明确语言建模,基于双向特征表示提出了一个新的双向洞穴网络作为语言模型,并提出一种迭代校正语言模型的执行方式,有效缓解了噪音输入的影响。此外,提出了一种自我训练方法,可以有效地从未标记的图像中学习,并在多个主流基准测试中取得了最先进的结果。