May, 2023

图像文本匹配指导的场景文本识别字典

TL;DR本文提出了一种基于场景图像 - 文本匹配(SITM)网络的新字典语言模型,该模型通过使用图像 - 文本对比(ITC)学习在特征空间中将正面的图像 - 文本对更紧密地匹配,从而避免了显式字典语言模型中的缺点。在六个主流基准测试中,我们的词库方法取得了更好的结果(93.8%准确性),并且与 ABINet 集成后在几个基准测试中建立了新的最优结果。