CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

May, 2023

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang

TL;DR介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

Abstract

Pre-trained vision-language models are the de-facto foundation models for various downstream tasks. However, this trend has not extended to the field of scene text recognition (STR), despite the potential of clip

pre-trained models scene text recognition clip image and text encoders dual predict-and-refine decoding

发现论文，激发创造

基于 CLIP 的场景文本识别的对称语言特征提取

利用对比语言图像预训练（CLIP）模型在场景文本识别（STR）中的潜力，我们建立了一个新的对称语言特征提取框架（称为 CLIP-OCR），以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联，我们构建了一个对称结构，其中包括了从图像到文本的特征传递流，覆盖了视觉和语言信息的提取。实验表明，CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。

Oct, 2023

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

用于快速高效场景文本识别的 Vision Transformer

本文提出 ViTSTR 作为一种简单的单阶段模型架构的 STR，其基于一种计算和参数高效的视觉变换器（ViT），ViTSTR 在以往的基准测试方法中取得了具有竞争力的准确率 82.6％（具有数据增强时为 84.2％），可获得 2.4 倍的加速比，只使用 43.4％的参数数量和 42.2％的 FLOPS。

May, 2021

场景文本识别的多粒度预测

本文旨在解决场景文字识别中的挑战性问题，通过引入 Vision Transformer，构建了一个概念简单而强大的模型，同时通过提出一种多粒度预测策略，将语言模态的信息融合到模型中，从而将每个子词表示与常规字符表示结合起来，使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。

Sep, 2022

VIPTR：一种用于快速高效的场景文本识别的可置换视觉特征提取器

本研究提出了一种 VIPTR（VIsion Permutable extractor for fast and efficient scene Text Recognition）方法，它利用具有金字塔结构的视觉语义提取器以及多个自注意层，避免了传统序列解码器的依赖，从而实现了在场景文本识别领域高性能和快速推理速度之间的卓越平衡。在多个标准数据集上的大量实验结果验证了 VIPTR 的卓越优势，在中英文场景文本识别方面取得了领先位置，同时 VIPTR-T（Tiny）在保持与其他轻量级模型相媲美的准确性的基础上，实现了最先进的推理速度，而 VIPTR-L（Large）在保持较低参数和良好推理速度的同时，实现了更高的识别准确性。本研究提出的方法为场景文本识别挑战提供了一个引人注目的解决方案，将高准确性和高效性相结合，极大地促进了对快速可靠文本识别的现实应用。

Jan, 2024

多模态上下文学习使自适应场景文本识别器

Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Nov, 2023

将 CLIP 模型转化为场景文字检测器

该研究提出了一种名为 TCM 的新方法，通过直接应用 CLIP 模型来进行文本检测，而不需要预先培训过程。实验证明该方法有助于现有场景文本检测方法的少样本学习能力，并且具有良好的领域自适应能力。

Feb, 2023

多层次学习融合的场景文本识别预测

通过结合语言知识和视觉模型，本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法，用于场景文本识别，取得了优异的识别结果。

Jul, 2023

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020