- CVPRRSCA: 实时基于分割的上下文感知场景文本检测
本文提出了一种基于实时分割和上下文感知的模型 RSCA,通过本地上下文感知上采样和动态文本脊柱标记等策略,实现了对任意形状场景文本检测的快速准确识别。在 CTW1500 数据集上,RSCA-640 实现了 48.3 FPS,83.9% F - CVPR面向任意形状场景文本的大规模端到端推理
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQ - CVPRMOST: 一种用于多方向场景文本检测的本地化精炼方法
本研究提出了一种用于场景文本检测的新算法,其中提出了一组策略来显着提高文本定位的质量。具体而言,提出了一种文本特征对齐模块(TFAM),用于根据初始原始检测动态调整特征的感受域;设计了一种位置感知非极大值抑制模块(PA-NMS)来选择性地集 - 野外场景文字检测的合成到真实无监督域自适应
研究了合成数据对实际数据的转化问题,并提出了基于对抗文本实例对齐与文本自训练的技术来解决领域差异,以提高场景文本检测的性能。
- CVPRContourNet: 迈向准确任意形状场景文本检测的更远一步
该论文提出了一种名为 ContourNet 的算法来解决场景文本检测中出现的误检和规模变化困难的问题,并通过 Adaptive Region Proposal Network 和 Local Orthogonal Texture-aware - 从虚幻的世界中合成逼真的场景文本图像
本文介绍了一种高效的图像合成方法 UnrealText,可通过 3D 图形引擎呈现逼真的图像,包括场景和文本,可以更好地生成文本区域建议,并对场景文本检测和识别的效果进行广泛实验验证。
- CVPRABCNet: 自适应 Bezier 曲线网络的实时场景文本定位
本研究提出在文字检测和识别中应用自适应贝塞尔曲线网络 (ABCNet) 以适应任意形状文字,通过设计新颖的 BezierAlign 层提取准确的卷积特征。ABCNet 相较于现存方法具有更高的速度和准确性,适用于实时应用。
- AAAI可微二值化的实时场景文字检测
本文提出了一种名为 Differentiable Binarization(DB)的模块,可以在分割网络中执行二值化过程,不仅简化了后期处理,还提高了文本检测的性能。使用 ResNet-18 为 backbone,在 MSRA-TD500 - ICDAR2019 关于任意形状文本的鲁棒性阅读挑战(RRC-ArT)
本文报道了 ICDAR2019 关于任意形状文本 (RRC-ArT) 的鲁棒性阅读挑战,重点包括场景文本检测、场景文本识别、场景文本识别,并介绍了该挑战的数据集、任务描述、评估指标和参与者方法。
- ICCV几何规范化网络用于精准场景文本检测
本文提出了一种 Geometry Normalization Networks (GNNets) 的方法,该方法利用 Geometry Normalization Module (GNM) 来解决场景文本检测中的几何形状不同的问题,并通过基 - ICCV基于像素聚合网络的高效准确任意形状文本检测
本文提出了一种高效准确的任意形状文本检测器 Pixel Aggregation Network (PAN),它配备了低计算成本的分割头和可学习的后处理,其中分割头由 Feature Pyramid Enhancement Module (F - 自适应文本区域表示的任意形状场景文本检测
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
- CVPR多看一眼:一种针对任意形状文本的准确检测器
用 LOMO(即 Look More Than Once)方法解决了传统的场景文本检测方法中受限于 CNN 的感受野和简单的形状描述方法在处理长文本和任意形状文本时的不足,该方法包含直接回归器(DR)、迭代细化模块(IRM)和形状表达模块( - CVPR文本检测的字符区域认知
提出了一种使用神经网络 2 来检测场景文本的新方法,在字符级别推断文本区域,采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性,也解决了缺少单独字符级别注释的问题,在 - CVPR基于渐进尺度扩张网络的形状稳健文本检测
本文介绍了一种名为 PSENet 的新型逐步缩放扩展网络,能够高精度检测任意形状的场景文字,该方法不仅能够解决任意形状文字的不准确问题,还能有效地解决邻近两个文本集实例合并等问题。
- 金字塔掩模文字檢測器
本文提供了一个名为 PMTD 的新 Mask R-CNN 框架,采用基于像素级回归的方法进行场景文本检测,以产生更具信息量的软文本标记。同时,该方法重新解释获取的 2D 软掩模,将其转换到 3D 空间,并引入一种新的平面聚类算法,以推导出基 - IJCAIMSR: 多尺度形状回归在场景文本检测中的应用
本文提出了一种新的多尺度形状回归网络(MSR),能够在场景中定位不同长度、形状和曲率的文本行,并通过预测密集的文本边界点来探测场景文本,具有较高的文本行长度变化容忍度。此外,该多尺度网络对不同尺度的特征提取及融合表现出优异的容忍度,实验结果 - 学习用于不规则场景文本检测的深度方向场
本文基于深度学习提出了一种名为 TextField 的新型文本检测器,通过学习每个文本点指向离其最近文本边界的方向向量进行检测,克服了目前普通文本检测器在检测曲线文本时的限制,其在多个数据集上表现非常优越。
- TextMountain:基于实例分割的准确场景文字检测
本文提出了一种名为 TextMountain 的新颖场景文本检测方法,它利用了边缘中心信息,通过预测文本中心边界概率(TCBP)和文本中心方向(TCD)来将文本实例分开,并能很好地处理多方向和曲线文本,实验表明该方法在准确性和效率方面都达到 - AAAI使用监督金字塔上下文网络进行场景文本检测
本文提出了一种基于 Feature Pyramid Network 和实例分割的模型,准确定位文本区域的同时抑制了虚警,实验结果表明该模型在场景文本检测方面表现优于现有方法。