该论文提出了一种基于卷积循环神经网络的统一网络,该网络可以同时定位和识别文本,通过端到端训练,提高了性能,在多个基准数据集上取得了竞争性的表现。
Jul, 2017
该研究提出了一种简单有效的框架,可以同时处理文字检测和识别,其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训,该方法在两个数据集上实现了新的最先进检测性能和表现提高。
Mar, 2018
一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容,并使用多步光学字符识别引擎提高识别准确性,大幅度领先现有模型的准确性。
Aug, 2019
本研究介绍了一种基于卷积神经网络的端到端文本识别、图像检索系统,使用了一些新颖的深度学习技术实现文本定位、识别、筛选和排序,在多个基准测试数据集上获得了最先进的性能表现,并应用于新闻视频检索中。
Dec, 2014
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法,通过综合考虑本地和全局线索,以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设,并使用另一个卷积神经网络分类器预测每个字符的质心,以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面,该方法实现了最先进的性能。
Apr, 2016
SwinTextSpotter v2 是一个新的端到端场景文字识别框架,通过引入 Recognition Conversion 和 Recognition Alignment 模块来加强文本检测和识别之间的关系,从而在各种多语言基准测试中取得了最先进的性能。
Jan, 2024
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
该论文提出了一个基于端到端文本检测的点定位方法,通过定位文本边界上的一组点,建立了一种简单而有效的方案,可读取任意形状的文本,并在 ICDAR2015,TotalText 和 COCO-Text 三个数据集上展开实验,实验结果表明,该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。
Nov, 2019
本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型,并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验,展现出在场景文本检测和端到端文本识别任务方面的最新水平。
Jul, 2018