具有几何先验的变形鲁棒文本识别
该研究提出了一种名为 TextRay 的任意形状文本检测方法,采用一次性无锚点框架中的自顶向下轮廓基准几何建模和几何参数学习,能够将复杂的几何布局编码为统一的表示,并输出仅经过一个 NMS 后处理的简单多边形检测。
Aug, 2020
提出了一种利用角点、字符对比损失、Transformer 和全局特征建模方法的艺术文本识别方法,并建立了一个新的数据集来衡量性能,实验结果显示该方法在艺术文本识别上显著优于现有方法且在几个数据集上取得了最优性能。
Jul, 2022
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019
本文提出了全卷积的点聚集网络(PGNet)用于实时读取任意形状的文字,并且在减少 NMS 和 RoI 操作的同时,通过提出的 PG-CTC 损失对像素级别的字符分类图进行学习,避免使用字符级别注释。同时,通过建立字符与其相邻字符之间的联系,引入图形优化模块(GRM)以优化粗糙的识别并提高端到端性能。实验结果证明了所提出的方法具有竞争性的准确性,同时显著提高了运行速度。
Apr, 2021
本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法,利用基于分割的高效检测器和新颖的形状变换模块,实现了文本检测和识别部分的全局优化,取得了在多个基准测试数据集上的优异性能表现。
Feb, 2020
本文介绍了一种基于注意力生成字形和可训练字体嵌入的方法,用于解决字体风格差异和排版不规则性在场景文本识别中带来的挑战,并通过实验证明了该方法的优越性。
Sep, 2020
本文介绍用于场景文本识别的深度学习架构 GeoTRNet 的概念、理论、实现及实验结果,该架构专用于处理常规场景文本,只使用几何特征识别图像中的数字,具有优异的模型可部署性、数据隐私性、模型可靠性,同时具有最小化模型权重、更短的推理时间等优势。
Feb, 2023
本文提出了一种利用交叉关注和残差密集块的方法,解决目前算法在具有复杂结构的艺术风格文本检测中存在的不完整和误诊问题。通过融合水平和垂直上下文信息来显著增强模型在复杂环境中的感知能力,并利用残差密集块来抑制背景噪声的影响,在不需要复杂的后处理的情况下引入边界鉴别模块来指导正确生成边界建议,实验证明所提出的方法在电影海报数据集上表现优异,并在多个基准数据集上获得出色的结果。
Jun, 2024