滑动线点回归的形状鲁棒场景文本检测
本文提出了一种新的多尺度形状回归网络(MSR),能够在场景中定位不同长度、形状和曲率的文本行,并通过预测密集的文本边界点来探测场景文本,具有较高的文本行长度变化容忍度。此外,该多尺度网络对不同尺度的特征提取及融合表现出优异的容忍度,实验结果显示,在曲线和直线不同长度及取向的场景中,所提出的 MSR 算法具备优越的探测性能。
Jan, 2019
研究通过直接回归预测物体边界偏移量,提高了多方向场景文本检测的效率,并且通过全卷积网络和单步后处理实现了高性能的检测框架。在 ICDAR2015 测序中,本文方法的 F1 得分为 81%,在其他标准数据集中也达到了最先进的性能。
Mar, 2017
提出了使用适应性文本区域表示的鲁棒场景文本检测方法,利用文本区域提案网络提取文本提案,再通过细化网络对提案进行验证和优化。实验结果在五个基准上表明,这种方法在场景文本检测方面达到了最先进水平。
May, 2019
提出了一种名为 LRANet 的文本检测器,该方法基于双重匹配方案用于正样本,利用低秩近似的文本轮廓表示方法来处理不规则形状文本,提高速度与准确性,并在三个数据集上展示了该方法的比较优越性。
Jun, 2023
本文提出了 SPTS v2 框架,采用单点注释作为代替传统文本检测与识别的昂贵手工注释方法。采用基于自回归 Transformer 的 IAD 对同一预测序列内所有文本实例的中心点进行预测,采用 PRD 进行文本识别。详细实验结果证明该方法可超越现有单点文本定位器的性能而实现 14 倍更快的推断速度。同时,实验还进一步展示了单点注释比非点注释和多边形边界框更为适合场景文本识别。
Jan, 2023
本研究提出了一种新型的深度卷积模型 TP-LSD,采用三点表示法用于图像线段检测,并通过定义新的评估指标以 Wireframe 和 YorkUrban 数据集为基础,验证其运行速度高达每秒 78 帧,具有竞争性的准确性和结构先验。
Sep, 2020
本文提出了一种名为旋转敏感回归检测器(RRD)的方法,旨在解决多方向文本探测器中存在的分类问题和面向文本方向的定位问题不相容的问题。该方法通过两个不同设计的网络分支提取具有不同特征的特征,具体地,通过旋转卷积过滤器提取旋转敏感特征的回归分支,通过池化旋转敏感特征提取旋转不变特征的分类分支。该方法在三个面向文本基准数据集上实现了最先进的性能,包括 ICDAR 2015、MSRA-TD500、RCTW-17 和 COCO-Text。并且在船舶收集数据集上对定位面向对象也取得了显著的进展,显示了该方法在面向对象检测方面的普适性。
Mar, 2018
通过使用 Sparse R-CNN 中的级联解码流程进行多边形预测,我们提出了一种创新的方法来解决基于 Transformer 的文本检测技术中的挑战,既能提高精度,又能减少内存占用和推理速度。
Sep, 2023