CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线
利用对比语言图像预训练(CLIP)模型在场景文本识别(STR)中的潜力,我们建立了一个新的对称语言特征提取框架(称为 CLIP-OCR),以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联,我们构建了一个对称结构,其中包括了从图像到文本的特征传递流,覆盖了视觉和语言信息的提取。实验表明,CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。
Oct, 2023
本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP,它利用场景图实现对细粒度语义信息的关注,结合结构知识来提高多模态语言表示的表示能力,并在不同的下游任务中得到了最先进的表现。
May, 2023
本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR,其基于一种计算和参数高效的视觉变换器(ViT),ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6%(具有数据增强时为 84.2%),可获得 2.4 倍的加速比,只使用 43.4%的参数数量和 42.2%的 FLOPS。
May, 2021
本文旨在解决场景文字识别中的挑战性问题,通过引入 Vision Transformer,构建了一个概念简单而强大的模型,同时通过提出一种多粒度预测策略,将语言模态的信息融合到模型中,从而将每个子词表示与常规字符表示结合起来,使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。
Sep, 2022
本研究提出了一种 VIPTR(VIsion Permutable extractor for fast and efficient scene Text Recognition)方法,它利用具有金字塔结构的视觉语义提取器以及多个自注意层,避免了传统序列解码器的依赖,从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势,在中英文场景文本识别方面取得了领先位置,同时 VIPTR-T(Tiny)在保持与其他轻量级模型相媲美的准确性的基础上,实现了最先进的推理速度,而 VIPTR-L(Large)在保持较低参数和良好推理速度的同时,实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案,将高准确性和高效性相结合,极大地促进了对快速可靠文本识别的现实应用。
Jan, 2024
Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.
Nov, 2023
该研究提出了一种名为 TCM 的新方法,通过直接应用 CLIP 模型来进行文本检测,而不需要预先培训过程。实验证明该方法有助于现有场景文本检测方法的少样本学习能力,并且具有良好的领域自适应能力。
Feb, 2023
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023
提出了一种半监督学习方法 S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强 CLIP 的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。
May, 2023
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020