面向场景文本理解的上下文文本块检测

ECCVJul, 2022

面向场景文本理解的上下文文本块检测

Contextual Text Block Detection towards Scene Text Understanding

Chuhui Xue, Jiaxing Huang, Shijian Lu, Changhu Wang, Song Bai

TL;DR本文提出一种基于场景文本聚类技术的上下文文本块检测新模型，并分别设计了三种衡量局部精度、连续性和全局精度的度量标准，实验证明该模型能够有效地促进文本分类和翻译等下游任务。

Abstract

Most existing scene text detectors focus on detecting characters or words that only capture partial text messages due to missing contextual information. For a better understanding of text in scenes, it is more desired to detect contextual text blocks (CTBs) which consist of one or mult

contextual text blocks text detection integral text units scene text clustering technique text classification

发现论文，激发创造

上下文文本块检测的动态关系 Transformer

通过将 Contextual Text Block Detection 任务作为图生成问题，利用 DQ-DETR 和 Dynamic Relation Transformer 等先进技术，该研究提出了一种图生成框架，能够以高效准确的方式检测上下文文本块，取得了最先进的结果。

Jan, 2024

基于整体、多通道预测的场景文字检测

该文提出了一种基于全局的语义分割方法来定位场景中的文本，使用单一的 FCN 模型估计文本属性，以同时处理水平，多方向和曲线文本，并在 ICDAR 2013、ICDAR 2015、MSRA-TD500 以及 COCO-Text 数据集上测试得到优于现有最先进方法的结果。

Jun, 2016

通过边框语义意识和启动自举精确场景文本检测

本研究提出了一种利用引导和文本边框语义的场景文本检测技术，以准确定位场景中的文本。通过多次对文本局部进行采样以有效缓解训练数据量有限的约束，提高了文本特征图的一致性；同时，设计了一种文本边界检测技术，通过生成每个场景文本的四种文本边框段，可以更准确地定位文本。本技术在多个公共数据集上展示了优异的表现。

Jul, 2018

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

自然场景图像中的统一文本检测系统

该研究提出了一种名为 Text Flow 的统一场景文本检测系统，该系统使用了最小成本（min-cost）流网络模型，通过将字符候选检测、文本行提取和文本行验证三个步骤集成到一个过程中，从而有效地解决了误差累积问题，并在 ICDAR2011，ICDAR2013 和多语种数据集上都实现了比现有技术更高的检测精度。

Apr, 2016

场景文本识别的 2D-CTC

通过将 vanilla CTC 模型扩展到第二个维度，我们创建了 2D-CTC，它可以自适应地集中于最相关的特征，同时排除背景噪声的影响并处理具有各种形式的文本实例。在 IIIT-5K，ICDAR 2015，SVP-Perspective 和 CUTE80 等标准基准上的实验结果表明，所提出的 2D-CTC 模型在正常和不规则形状的文本上均优于现有技术，并且在训练和测试速度上表现出优越性。

Jul, 2019

基于预训练语言模型的精确无侦测场景文本定位

本研究提出了一种场景文本检测器，利用预训练语言模型来增强性能，通过简单的文本块检测器获得粗略的定位信息，并通过大规模 OCR 数据集微调语言模型以实现准确识别，实验证明本场景文本检测器在多个公开基准上表现优越，同时展示了预训练语言模型在整个场景图像中直接检测文本的潜力。

Mar, 2024

TextBoxes++：一种单次定向场景文本检测器

本文提出了一种名为 TextBoxes ++ 的端到端可训练的快速场景文本检测器，它可以在单个网络正向传递中检测任意方向的场景文本，并在检测精度和运行时方面优于竞争方法。

Jan, 2018

基于 LLMs 的块级文本检测

通过利用大型语言模型的强大语义知识，提出了一种新颖方法 BTS-LLM（基于 LLM 的区块级文本识别），以在图像中识别区块级别的文本，从而增强后续应用中的上下文信息和文本纠错功能。

Jun, 2024

TextMountain：基于实例分割的准确场景文字检测

本文提出了一种名为 TextMountain 的新颖场景文本检测方法，它利用了边缘中心信息，通过预测文本中心边界概率（TCBP）和文本中心方向（TCD）来将文本实例分开，并能很好地处理多方向和曲线文本，实验表明该方法在准确性和效率方面都达到了更好或可比较的性能。

Nov, 2018