ECCVMar, 2022

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

TL;DR本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。