PAN++:高效准确的任意形状文本端到端定位
本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN),它配备了低计算成本的分割头和可学习的后处理,其中分割头由 Feature Pyramid Enhancement Module (FPEM) 和 Feature Fusion Module (FFM) 组成。通过预测相似向量准确地聚合文本像素的像素聚合 (PA) 实现可学习后处理。同时,该方法在几个标准基准测试中取得了优异的表现。
Aug, 2019
本文提出了一种名为 Text Perceptron 的端到端可训练文本检测方法,利用基于分割的高效检测器和新颖的形状变换模块,实现了文本检测和识别部分的全局优化,取得了在多个基准测试数据集上的优异性能表现。
Feb, 2020
该研究提出了一种统一的网络,同时定位和识别文本,通过使用卷积特征和 $2$D 注意力模型实现对任意形状文本的鲁棒定位和识别,避免了中间过程,取得了包括正常及不规则文本在内的多个标准数据集的最佳表现。
Jun, 2019
本文介绍了一种名为 PSENet 的新型逐步缩放扩展网络,能够高精度检测任意形状的场景文字,该方法不仅能够解决任意形状文字的不准确问题,还能有效地解决邻近两个文本集实例合并等问题。
Mar, 2019
该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法,采用 Segmentation Proposal Network(SPN)代替 RPN,从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例,并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中,该算法已实现最优性能。
Jul, 2020
本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型,并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验,展现出在场景文本检测和端到端文本识别任务方面的最新水平。
Jul, 2018
本文提出了一个名为 KPN 的创新型 Kernel Proposal Network 用于任意形状文本检测,该方法通过预测高斯中心图,从嵌入特征图中提取候选动态卷积核以分离邻近文本实例,同时通过正交约束保证核的独立性,进而将各个核分别卷积输入特征图并生成文本实例的嵌入图,最终有效地解决了邻近文本实例粘连问题,并取得了优异的性能表现。
Mar, 2022
提出了一种新的场景文本识别方法,使用单点标注替代昂贵的边界框标注,将场景文本定位和识别视为序列预测任务,并使用自回归 Transformer 模型预测序列,可达到最先进的识别效果。
Dec, 2021
本研究提出一种基于分割的检测器,通过渐进式缩小文本实例并分别分割多个预测核以检测任意形状、且强邻近文本分离的文本实例,实现了在 ICDAR 基准测试中优于之前最佳结果的表现。
Jun, 2018