不可微二值化与自适应尺度融合的实时场景文本检测

Feb, 2022

不可微二值化与自适应尺度融合的实时场景文本检测

Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

Minghui Liao, Zhisheng Zou, Zhaoyi Wan, Cong Yao, Xiang Bai

TL;DR该论文提出了一种基于分割的场景文本检测方法，结合差分二值化和自适应尺度融合模块，显著提升了文本检测的准确度和速度。

Abstract

Recently, segmentation-based scene text detection methods have drawn extensive attention in the scene text detection field, because of their superiority in detecting the text instances of arbitrary shapes and extreme aspect ratios, profiting from the pixel-level descriptions. However,

segmentation-based scene text detection differentiable binarization module adaptive scale fusion text instances detection post-processing algorithms

发现论文，激发创造

可微二值化的实时场景文字检测

本文提出了一种名为 Differentiable Binarization（DB）的模块，可以在分割网络中执行二值化过程，不仅简化了后期处理，还提高了文本检测的性能。使用 ResNet-18 为 backbone，在 MSRA-TD500 数据集上实现了 82.8 的 F-measure，达到 62 FPS 的速度。

Nov, 2019

场景文本检测的自适应分割网络

基于深度卷积分割算法的场景文本检测器通过学习判别性分割阈值和设计全局信息增强特征金字塔网络，实现了对具有极端长宽比的文本实例的有效检测和自适应分割，为场景文本检测提供了最新的性能表现。

Jul, 2023

用于多方向场景文本检测的融合文本分割网络

本文提出了一种新的多方位场景文本检测的模型，将多级特征融合到特征提取中，将文本实例一起检测和分割，该方法有效地结合了语义分割和基于区域提议的目标检测任务，实现了在多方位场景文本检测基准测试 ICDAR2015 Incidental Scene Text 和 MSRA-TD500 上的超越，达到了分别 84.1% 和 82.0% 的 Hmean 值。

Sep, 2017

多语言自然场景文本检测算法研究

我们提出了一种多语言文本检测模型，通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支，改进了对自然场景中多语言文本的检测准确性和难度，实验结果表明该算法 F-measure 值为 85.02%，比基准模型高出 4.71%。

Dec, 2023

实时场景文字检测的鲁棒性研究：从语义到实例表达学习

通过引入辅助任务，利用全局稠密语义对比和自上而下建模来联合学习鲁棒特征，从而实现更强大的实时场景文本检测。

Aug, 2023

少胜于全：场景文本检测的特征采样和分组

本文提出了一种简单而有效的基于变压器的场景文本检测模型，该模型通过选取几个代表性特征进行文本检测，借助变压器模型建模其特征之间的关系，实现将文本实例划分为合理的组，并轻易地获得其边界框，从而在多个数据集上取得了最新的成果。

Mar, 2022

利用扩散模型对野外场景文字进行操作

通过引入基于扩散的场景文本操作网络（DBEST），我们设计了两种适应策略，即一次性样式适应和文本识别引导，在各种场景文本数据集上进行了全面评估和比较，并提供了深入的消融研究来分析我们的性能提升。此外，我们还展示了我们提出的方法在合成场景文本方面的有效性，通过竞争的光学字符识别（OCR）准确度，在 COCO-text 和 ICDAR2013 数据集上达到了 94.15% 和 98.12% 的字符级评估。

Nov, 2023

ASAP：高准确度实时语义分割

本文提出使用 Feature Fusion with Different Norms (FFDN)，利用多重尺度的丰富全局上下文信息和垂直池化模块来减少在垂直方向上全局上下文编码的复杂度。在城市风景测试数据集上，平均交互并集（mIoU）为 73.1，每秒帧数（FPS）为 191，与目前最先进的结果相当。

Oct, 2022

MOST: 一种用于多方向场景文本检测的本地化精炼方法

本研究提出了一种用于场景文本检测的新算法，其中提出了一组策略来显着提高文本定位的质量。具体而言，提出了一种文本特征对齐模块（TFAM），用于根据初始原始检测动态调整特征的感受域；设计了一种位置感知非极大值抑制模块（PA-NMS）来选择性地集中于可靠的原始检测，排除不可靠的检测，此外还提出了一种实例 IoU 损失来平衡针对不同比例的文本实例的训练。通过广泛的消融研究，证明了所提出策略的有效性和优越性。最终，将这些策略与业内领先的场景文本检测器 EAST 集成，实现了在保持快速运行速度的同时，达到了各种标准文本检测基准上的最新或有竞争力的性能。

Apr, 2021

面向移动和 Web 应用的边界感知分割网络

本文提出了一种基于边界感知的图像分割网络，它包含一个预测 - 优化的体系结构和一个混合损失函数，可用于高精度图像分割，并在显著对象分割和伪装对象分割等任务上展示了出色的性能。基于该网络，开发了 “AR COPY＆PASTE” 和 “OBJECT CUT” 两个商业应用，可供公众使用。

Jan, 2021