ICMLMay, 2024

面向统一的多粒度文本检测与交互式注意力

TL;DR存在的 OCR 引擎或文档图像分析系统通常依靠在不同场景和细粒度上训练独立模型来进行文本检测,导致重要的计算复杂性和资源需求。本文介绍了一种名为 “任意文本检测”(DAT)的先进范例,它将场景文本检测、布局分析和文档页面检测无缝统一为一个连贯的、端到端的模型。该设计使得 DAT 能够高效地处理包括字、行、段落和页面在内的不同细粒度的文本实例。DAT 中的一个关键创新是跨细粒度交互式注意力模块,通过关联不同文本查询的结构信息,显著增强了文本实例在不同细粒度上的表示学习能力。因此,它使得该模型能够在多个文本细粒度上实现相互受益的检测性能。此外,基于提示的分割模块对任意曲率和复杂布局的文本进行了细化,从而提高了 DAT 的准确性和扩展其实际应用能力。实验结果表明,DAT 在各种与文本相关的基准测试中实现了最先进的性能,包括多方向 / 任意形状场景文本检测、文档布局分析和页面检测任务。