May, 2022

多模态半监督学习文本识别

TL;DR该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。