MMOct, 2023

基于 CLIP 的场景文本识别的对称语言特征提取

TL;DR利用对比语言图像预训练(CLIP)模型在场景文本识别(STR)中的潜力,我们建立了一个新的对称语言特征提取框架(称为 CLIP-OCR),以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联,我们构建了一个对称结构,其中包括了从图像到文本的特征传递流,覆盖了视觉和语言信息的提取。实验表明,CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。