DiffusionSTR: 场景文本识别的扩散模型
通过引入基于扩散的场景文本操作网络(DBEST),我们设计了两种适应策略,即一次性样式适应和文本识别引导,在各种场景文本数据集上进行了全面评估和比较,并提供了深入的消融研究来分析我们的性能提升。此外,我们还展示了我们提出的方法在合成场景文本方面的有效性,通过竞争的光学字符识别(OCR)准确度,在 COCO-text 和 ICDAR2013 数据集上达到了 94.15% 和 98.12% 的字符级评估。
Nov, 2023
在场景文本图像超分辨率的研究中,通过引入一种生成模型 RGDiffSR 和一种去噪网络 RGDN,本文通过语义引导实现了场景文本图像的高保真度图像增强,从而在文本识别准确度和图像保真度方面都取得了优于现有方法的结果。
Nov, 2023
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
通过扩充背景与前景文字的整合,Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。
Nov, 2023
本研究使用文本条件扩散模型(DMs)实现场景文本图像超分辨率(STISR)任务,并提出了一个针对合成低分辨率 - 高分辨率配对文本图像数据集的新框架,该框架包含三个专门的 DMs 模块,分别用于文本图像合成、超分辨率和图像退化。实验证明,使用这些合成图像对可显著提高 STISR 方法在 TextZoom 评估中的性能。
Nov, 2023
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
Jun, 2024
本文从数据导向的角度重新评估场景文字识别(STR)。作者重新审视了 STR 中六个常用基准,并观察到性能饱和的趋势,通过 13 个代表性模型,只有 2.91%的基准图像不能被准确识别。然而,作者认为这主要是由于常见基准的挑战程度较低,从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现,作者整理了一个大规模的真实 STR 数据集 Union14M,包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53%的平均准确率,表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式,作者确定了 STR 领域的七个难题,并构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的进一步发展。作者的探索表明,STR 远未解决,并且利用数据可能是一个有希望的解决方案。在这方面,作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性,并取得了最先进的性能。
Jul, 2023
本文提出了一种四阶段的场景文本识别模型框架,通过对模型组件的模块化分析,解决了训练和评估数据集的不一致性导致的性能差异问题,为现有模块的深入评估和探索提供了可能。
Apr, 2019
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023