Mar, 2022
Language Matters: 一种弱监督的视觉-语言预训练方法用于场景文字检测和定位
Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting
TL;DR本文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对OCR任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。