朝着无约束的端到端文本检测
该论文提出了一个基于端到端文本检测的点定位方法,通过定位文本边界上的一组点,建立了一种简单而有效的方案,可读取任意形状的文本,并在 ICDAR2015,TotalText 和 COCO-Text 三个数据集上展开实验,实验结果表明,该方法在场景文本检测和端到端文本识别任务上均超过了现有技术水平。
Nov, 2019
本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法,利用基于分割的高效检测器和新颖的形状变换模块,实现了文本检测和识别部分的全局优化,取得了在多个基准测试数据集上的优异性能表现。
Feb, 2020
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019
提出了一种名为 TextNet 的端到端训练网络结构,能够同时从图像中定位和识别不规则文本,并通过设计的多任务损失函数实现端到端的文本定位和识别任务。实验结果显示,所提出的 TextNet 在标准基准上取得了最先进的性能,并且在不规则数据集上优于现有方法。
Dec, 2018
本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型,并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验,展现出在场景文本检测和端到端文本识别任务方面的最新水平。
Jul, 2018
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
May, 2019
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
该研究提出了一种名为 TextRay 的任意形状文本检测方法,采用一次性无锚点框架中的自顶向下轮廓基准几何建模和几何参数学习,能够将复杂的几何布局编码为统一的表示,并输出仅经过一个 NMS 后处理的简单多边形检测。
Aug, 2020
该研究提出了一种简单有效的框架,可以同时处理文字检测和识别,其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训,该方法在两个数据集上实现了新的最先进检测性能和表现提高。
Mar, 2018
提出了一种基于深度学习的两阶段文本检测器 NASK,采用实例分割技术,通过 GSCA 模块、RoI Pooling 和 FOX 模块,能够更精确地定位和还原任意形状、不同大小、存在转角的文本,并在公共基准测试数据集上取得了最先进的结果。
Apr, 2020