ICCVSep, 2023

使用经过预训练的类 CLIP 模型通过图像 ID 同步的中文文本识别

TL;DR我们提出了一个受人类认知中文文本方式启发的两阶段框架,通过对齐印刷字符图像和表意描述序列(IDS)来预训练一个类似 CLIP 的模型,从而改进传统的单字符识别到文本行识别,并在两种基准测试中证明了该方法的有效性,特别是在零样本中文字符识别方面表现出色。