BriefGPT.xyz
Ask
alpha
关键词
dual predict-and-refine decoding
搜索结果 - 1
CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线
介绍了 CLIP4STR,一种基于 CLIP 的简单而有效的场景文字识别方法,通过图像和文本编码器构建,具有双预测和精炼解码机制。实验表明,该方法在 11 个 STR 基准测试中达到了最新的最佳性能。
PDF
a year ago
Prev
Next