基于显式位置增强的鲁棒场景文本图像超分辨率

IJCAIJul, 2023

基于显式位置增强的鲁棒场景文本图像超分辨率

Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement

Hang Guo, Tao Dai, Guanghao Meng, Shu-Tao Xia

TL;DR本研究提出了一种名称为 LEMMA 的新方法，通过显式建模字符区域，生成具有高级文本特定引导的超分辨率图像，通过位置增强模块和多模态对齐模块提升字符区域的特征提取和视觉 - 语义对齐，并使用自适应融合模块将先验引导无缝融合到超分辨率分支中。在 TextZoom 和四个场景文本识别基准测试上的实验证明了本方法相对于其他最先进技术的优越性。

Abstract

scene text image super-resolution (STISR), aiming to improve image quality while boosting downstream scene text recognition accuracy, has recently achieved great success. However, most existing methods treat the foreground (character regions) and background (non-character regions) equa

scene text image super-resolution foreground and background modeling lemma method location enhancement module multi-modal alignment module

发现论文，激发创造

基于文本条件扩散模型的场景文本图像超分辨率

本研究使用文本条件扩散模型（DMs）实现场景文本图像超分辨率（STISR）任务，并提出了一个针对合成低分辨率 - 高分辨率配对文本图像数据集的新框架，该框架包含三个专门的 DMs 模块，分别用于文本图像合成、超分辨率和图像退化。实验证明，使用这些合成图像对可显著提高 STISR 方法在 TextZoom 评估中的性能。

Nov, 2023

C3-STISR: 三重线索场景文本图像超分辨率

该论文提出了一种结合识别器反馈、视觉和语言信息的方法 C3-STISR 来引导超分辨率，通过有效的提取和融合机制，生成了全面和统一的引导，在 TextZoom 上的实验表明，C3-STISR 在保真度和识别性能方面优于最先进的方法。

Apr, 2022

基于文本先验引导的场景文本图像超分辨率

本文介绍了一种多阶段文字先验指导的超分辨率 (STISR) 分类模型，在基准 TextZoom 数据集上表现出明显的改进，通过将字符概率序列作为文本先验嵌入到 STISR 模型训练中，以提高低分辨率场景文本图像的分辨率和视觉质量，从而有效提高现有 STISR 方法的文本识别精度。

Jun, 2021

ESTISR：针对真实场景的高效场景文本图像超分辨率调整

提出了一种高效场景文本图像超分辨网络（ESTISR Network）用于资源受限的部署平台，ESTISR 依赖于 CNN 特征提取器和用于解码低分辨率图像的高效自我关注机制，它在还原图像的质量和提高场景文本识别准确性时，不仅能保持高性能，还在实际运行时间和峰值内存消耗方面表现更优秀。

Jun, 2023

场景文本图像超分辨率的识别引导扩散模型

在场景文本图像超分辨率的研究中，通过引入一种生成模型 RGDiffSR 和一种去噪网络 RGDN，本文通过语义引导实现了场景文本图像的高保真度图像增强，从而在文本识别准确度和图像保真度方面都取得了优于现有方法的结果。

Nov, 2023

野外场景文本图像超分辨率

本文提出一种用于自然场景摄影下的低分辨率文本识别的新方法，该方法利用超分辨率技术对图像进行预处理，并开发了一种真实场景文本超分辨率数据集（TextZoom）。我们引入了三个新型模块，包括序列残差块、边界感知损失和中央对齐模块。通过对 TextZoom 数据集的广泛实验，我们证明了我们的 TSRN 模型具有显著提升低分辨率文本识别准确性的能力。

May, 2020

HiREN: 提高监督质量以实现更好的场景文本图像超分辨率

通过提出的 HiREN 框架，该研究论文通过增强高分辨率图像的质量，并使用增强后的图像来监督低分辨率图像的超分辨率处理，从而显著提升了场景文本图像超分辨率处理的性能。

Jul, 2023

通过双先验调制网络改善场景文本图像超分辨率

本文提出了一种名为 Dual Prior Modulation Network（DPMN）的插件模块，该模块利用图像级双重先验知识，通过文本蒙版或图形识别结果的先验引导模块来提高文本的结构清晰度和语义准确性，并将两幅经过优化的图像通过关注机制调制，从而实现对场景文本图像超分辨率的提升。

Feb, 2023

中英文场景文字图像超分辨率的基准

提出了一个用于场景文本图像超分辨率的中英文综合基准数据集 Real-CE，重点是恢复结构复杂的中文字符。通过基于边缘信息的学习方法，在图像和特征领域提供结构监督，以有效地重建中文字符的密集结构。在所提出的 Real-CE 基准数据集上对现有的场景文本图像超分辨率模型进行实验和评估，包括具有和没有基于边缘信息的损失的模型。

Aug, 2023

Text Gestalt: 基于笔画的场景文本图像超分辨率

本文提出了一种 Stroke-Aware Scene Text Image Super-Resolution 方法，通过设计规则分解英文字符和数字，设计 Stroke-Focused Module（SFM）以集中于字符的笔画级内部结构，旨在通过预训练文本识别器为位置提供笔画级别的注意力图，并控制所生成的超分辨率图像与高分辨率真实值之间的一致性，从而实现低分辨率场景文本图像识别的目的。

Dec, 2021