理解 WordArt：基于角点引导的 Transformer 用于场景文本识别

ECCVJul, 2022

理解 WordArt：基于角点引导的 Transformer 用于场景文本识别

Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition

Xudong Xie, Ling Fu, Zhifei Zhang, Zhaowen Wang, Xiang Bai

TL;DR提出了一种利用角点、字符对比损失、Transformer 和全局特征建模方法的艺术文本识别方法，并建立了一个新的数据集来衡量性能，实验结果显示该方法在艺术文本识别上显著优于现有方法且在几个数据集上取得了最优性能。

Abstract

artistic text recognition is an extremely challenging task with a wide range of applications. However, current scene text recognition methods mainly focus on irregular text while have not explored artistic text specifically. The challenges of →

artistic text recognition corner points character-level feature transformer artistic text dataset

发现论文，激发创造

基于 Transformer 的场景文本识别

本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法，只需要空间注意力而不需要矫正图像，仅使用卷积特征图作为单词嵌入输入到 transformer 中，并在大规模实验中取得了显著的优越性能。

Mar, 2020

具有几何先验的变形鲁棒文本识别

通过构建具有形状变形和字体多样性的中国艺术数据集，提出了一种变形鲁棒的文本定位方法 (DR TextSpotter)，该方法利用几何先验模块和图卷积网络融合字符特征和标记特征，并进行语义推理以增强对不同字符的区分，实验证明了该方法的有效性。

Aug, 2023

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019

艺术风格文本检测器及一种新的电影海报数据集

本文提出了一种利用交叉关注和残差密集块的方法，解决目前算法在具有复杂结构的艺术风格文本检测中存在的不完整和误诊问题。通过融合水平和垂直上下文信息来显著增强模型在复杂环境中的感知能力，并利用残差密集块来抑制背景噪声的影响，在不需要复杂的后处理的情况下引入边界鉴别模块来指导正确生成边界建议，实验证明所提出的方法在电影海报数据集上表现优异，并在多个基准数据集上获得出色的结果。

Jun, 2024

少胜于全：场景文本检测的特征采样和分组

本文提出了一种简单而有效的基于变压器的场景文本检测模型，该模型通过选取几个代表性特征进行文本检测，借助变压器模型建模其特征之间的关系，实现将文本实例划分为合理的组，并轻易地获得其边界框，从而在多个数据集上取得了最新的成果。

Mar, 2022

ARTIST: 复杂文本图像生成的解耦改进

通过引入一个专门关注文本学习的新框架 ARTIST，有助于提升扩散模型在生成富文本图像时的文本渲染能力，并利用预训练的大型语言模型来解释用户意图，提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明，该方法在各种度量标准上的性能提升达到了 15%。

Jun, 2024

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

CT-Net: 通过轮廓变换器进行任意形状文本检测

通过渐进式轮廓回归及轮廓变换器，我们提出了一种名为 CT-Net 的新型任意形状场景文本检测框架，以解决前端轮廓初始化不准确、多阶段误差累积或局部信息聚合不足的限制，并通过大量实验验证了其在准确性和效率方面超越了现有方法。

Jul, 2023

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

重新思考不规则场景文本识别

本文介绍了基于矩形化的文字识别方法的一些技巧，使其在曲线文本数据集上表现出色，并在 ICDAR 2019 任意形状文本挑战中获得了较高的准确性。

Aug, 2019