May, 2023

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

TL;DR介绍了 CLIP4STR,一种基于 CLIP 的简单而有效的场景文字识别方法,通过图像和文本编码器构建,具有双预测和精炼解码机制。实验表明,该方法在 11 个 STR 基准测试中达到了最新的最佳性能。