理解 WordArt:基于角点引导的 Transformer 用于场景文本识别
本论文提出了一种基于 transformer 的简单但极其有效的场景文本识别方法,只需要空间注意力而不需要矫正图像,仅使用卷积特征图作为单词嵌入输入到 transformer 中,并在大规模实验中取得了显著的优越性能。
Mar, 2020
通过构建具有形状变形和字体多样性的中国艺术数据集,提出了一种变形鲁棒的文本定位方法 (DR TextSpotter),该方法利用几何先验模块和图卷积网络融合字符特征和标记特征,并进行语义推理以增强对不同字符的区分,实验证明了该方法的有效性。
Aug, 2023
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 6 个基准测试上广泛的实验中,包括在自然图像中包含高度曲线文本,如 TotalText 和 CTW-1500 数据集,证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果,我们的方法保证了在检测复杂的场景文本图像(如任意定向,曲线或变形文本)方面具有高度的灵活性。
Apr, 2019
本文提出了一种利用交叉关注和残差密集块的方法,解决目前算法在具有复杂结构的艺术风格文本检测中存在的不完整和误诊问题。通过融合水平和垂直上下文信息来显著增强模型在复杂环境中的感知能力,并利用残差密集块来抑制背景噪声的影响,在不需要复杂的后处理的情况下引入边界鉴别模块来指导正确生成边界建议,实验证明所提出的方法在电影海报数据集上表现优异,并在多个基准数据集上获得出色的结果。
Jun, 2024
本文提出了一种简单而有效的基于变压器的场景文本检测模型,该模型通过选取几个代表性特征进行文本检测,借助变压器模型建模其特征之间的关系,实现将文本实例划分为合理的组,并轻易地获得其边界框,从而在多个数据集上取得了最新的成果。
Mar, 2022
通过引入一个专门关注文本学习的新框架 ARTIST,有助于提升扩散模型在生成富文本图像时的文本渲染能力,并利用预训练的大型语言模型来解释用户意图,提高生成质量。在 MARIO-Eval 基准测试上的实证结果表明,该方法在各种度量标准上的性能提升达到了 15%。
Jun, 2024
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
通过渐进式轮廓回归及轮廓变换器,我们提出了一种名为 CT-Net 的新型任意形状场景文本检测框架,以解决前端轮廓初始化不准确、多阶段误差累积或局部信息聚合不足的限制,并通过大量实验验证了其在准确性和效率方面超越了现有方法。
Jul, 2023