Mar, 2024

基于预训练语言模型的精确无侦测场景文本定位

TL;DR本研究提出了一种场景文本检测器,利用预训练语言模型来增强性能,通过简单的文本块检测器获得粗略的定位信息,并通过大规模 OCR 数据集微调语言模型以实现准确识别,实验证明本场景文本检测器在多个公开基准上表现优越,同时展示了预训练语言模型在整个场景图像中直接检测文本的潜力。