面向统一的多粒度文本检测与交互式注意力

ICMLMay, 2024

面向统一的多粒度文本检测与交互式注意力

Towards Unified Multi-granularity Text Detection with Interactive Attention

Xingyu Wan, Chengquan Zhang, Pengyuan Lyu, Sen Fan, Zihan Ni...

TL;DR存在的 OCR 引擎或文档图像分析系统通常依靠在不同场景和细粒度上训练独立模型来进行文本检测，导致重要的计算复杂性和资源需求。本文介绍了一种名为 “任意文本检测”（DAT）的先进范例，它将场景文本检测、布局分析和文档页面检测无缝统一为一个连贯的、端到端的模型。该设计使得 DAT 能够高效地处理包括字、行、段落和页面在内的不同细粒度的文本实例。DAT 中的一个关键创新是跨细粒度交互式注意力模块，通过关联不同文本查询的结构信息，显著增强了文本实例在不同细粒度上的表示学习能力。因此，它使得该模型能够在多个文本细粒度上实现相互受益的检测性能。此外，基于提示的分割模块对任意曲率和复杂布局的文本进行了细化，从而提高了 DAT 的准确性和扩展其实际应用能力。实验结果表明，DAT 在各种与文本相关的基准测试中实现了最先进的性能，包括多方向 / 任意形状场景文本检测、文档布局分析和页面检测任务。

Abstract

Existing ocr engines or document image analysis systems typically rely on training separate models for text detection in varying scenarios and granularities, leading to significant computational complexity and re

ocr text detection layout analysis document page detection scene text detection

发现论文，激发创造

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

文本识别的解耦注意力网络

提出了一种新的解决注意力机制中的历史解码结果对齐精度不够的问题的方法，叫做解耦式注意力网络 (DAN)，并在手写文本识别以及正常 / 非正常场景文本识别等多个文本识别任务中取得了最先进的性能表现。

Dec, 2019

AnyText: 多语言视觉文本生成与编辑

基于扩散模型的多语言视觉文本生成的 AnyText 模型，利用 OCR 模型和扩散管道生成准确和连贯的文本，通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性，并在评估实验证明我们的方法在视觉文本生成方面表现优异。

Nov, 2023

具有区域注意力的单 Shot 文本检测器

本研究提出了一种新颖的单步文字检测器，该检测器直接在自然图像中输出单词级别的边界框。通过自动学习的注意力映射，我们提出了一种注意机制，粗略地识别文本区域。此外，我们还开发了分层 Inception 模块，可以有效地聚合多尺度 Inception 特征，从而使该检测器能够可靠地在单尺度图像上处理多尺度和多方向文本。我们的文本检测器在 ICDAR 2015 基准测试中取得了 77％的 F-measure，超越了先前研究的最新成果。

Sep, 2017

一种端到端的文本识别器：显式对齐与注意力机制

该研究提出了一种简单有效的框架，可以同时处理文字检测和识别，其中利用了新颖的文本对齐层、字符空间信息作为显式监督和端到端可训练的模型。通过联合培训，该方法在两个数据集上实现了新的最先进检测性能和表现提高。

Mar, 2018

面向任意形状场景文本的大规模端到端推理

本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词，提出了任意形状的场景文本检测和识别系统 TextOCR，使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理，以达到新的 TextVQA 数据集上的最新性能水平。

May, 2021

朝着端到端的统一场景文本检测和布局分析

本论文提出了统一场景文本检测和布局分析任务，并介绍了一种能够同时检测场景文本和形成文本聚类的方法以及一个首个分层场景文本数据集，全面实验证明了所提出的统一模型在多个基线方法上实现了更好的性能，此外，该模型还在多个场景文本检测数据集上实现了最先进的结果，无需复杂的后处理。

Mar, 2022

文本分组适配器：为布局分析适配预训练的文本检测器

利用 Text Grouping Adapter（TGA）模块，将各种预训练文本检测器有效地用于学习布局分析，达到优秀的布局分析性能，同时继承预训练的普适文本检测能力。

May, 2024

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

EAST: 一种高效准确的场景文本检测器

本研究提出了一种简单而强大的场景文本检测流程，该流程可以直接预测全图中任意方向和四边形形状的单词或文本行，消除了不必要的中间步骤（例如候选聚合和单词划分），只需要一个神经网络进行操作，大大提升了检测的准确性和效率。

Apr, 2017