可扩展视频文本定位的遮罩标注

May, 2023

Scalable Mask Annotation for Video Text Spotting

Haibin He, Jing Zhang, Mengyang Xu, Juhua Liu, Bo Du...

TL;DR提出了一种基于可扩展的 SAMText 模型的可扩展的遮罩注释流程，用于视频文本定位，以解决现有数据集所具有的问题，并使用 SAMText 创建了一个包含 2400 个视频剪辑和超过 900 万个遮罩注释的大规模数据集，为该领域提供了新的研究机会。

Abstract

video text spotting refers to localizing, recognizing, and tracking textual elements such as captions, logos, license plates, signs, and other forms of text within consecutive video frames. However, current datasets available for this task rely on quadrilateral ground truth annotations

video text spotting samtext mask annotation pipeline large-scale dataset sam model

发现论文，激发创造

Open Images V5 文本标注和又一个掩膜文本检测器

本文介绍 Open Images V5 数据集的文本注释，并使用该注释训练了一个基于 Mask-RCNN 的文本检测模型 (YAMTS)，该模型可被导出为 OpenVINO 格式，在 Intel CPU 上运行，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上实现了竞争性的性能甚至超越了当前某些最先进的方法。

Jun, 2021

You Only Recognize Once: 面向快速视频文本定位

本文提出了一种快速且强健的视频文本识别框架，通过一次性识别局部文本，避免了针对每一帧的文本识别，使用文本推荐器从文本流中选择高质量文本并仅对其进行识别，大大加快了视频文本识别的速度，在公共基准测试中实现了显著的最先进效果，并推出了一个促进视频文本识别社区发展的数据集（LSVTD）.

Mar, 2019

Mask TextSpotter：一种端到端可训练神经网络，用于检测任意形状的文本

本文提出了一种名为 Mask TextSpotter 的针对场景文本定位和识别问题的端到端训练的神经网络模型，并在 ICDAR2013、ICDAR2015 和 Total-Text 数据集上进行了实验，展现出在场景文本检测和端到端文本识别任务方面的最新水平。

Jul, 2018

Mask TextSpotter v3：面向鲁棒性场景文本检测的分割网络

该研究提出了一种名为 Mask TextSpotter v3 的新的场景文本识别算法，采用 Segmentation Proposal Network（SPN）代替 RPN，从而可以更准确和有效地识别和处理极端宽高比或不规则形状的文本实例，并且识别精度不会受到附近文本或背景噪声的干扰。在多个数据集上的实验中，该算法已实现最优性能。

Jul, 2020

SPTS：单点文字定位

提出了一种新的场景文本识别方法，使用单点标注替代昂贵的边界框标注，将场景文本定位和识别视为序列预测任务，并使用自回归 Transformer 模型预测序列，可达到最先进的识别效果。

Dec, 2021

DSText V2：针对密集细小文字的综合视频文字识别数据集

该研究提出了一个名为 DSText V2 的视频文本阅读基准，着重解决了视频中密集、小字体的阅读难题，并且包含了新的场景和任务，如视频文本检测、跟踪以及端到端视频文本定位。该文章还对数据集进行了详细的统计分析，并提供了洞察和分析针对该数据集中的三个独特挑战，旨在为研究人员带来新的见解。

Nov, 2023

朝着无约束的端到端文本检测

一项新的网络模型使用实例分割方法和注意力模型识别和提取曲线形状的文本内容，并使用多步光学字符识别引擎提高识别准确性，大幅度领先现有模型的准确性。

Aug, 2019

LOGO: 视频文本定位中的语言协作和字体感知模型

通过融合语言协同和字形感知模型（LOGO），我们的研究论文提出了一种语言协同分类器（LSC）来提升传统文本定位器的性能。我们的方法还引入了字形监督和视觉位置混合模块，以提高对嘈杂文本区域的识别准确性和获取更具辨识力的跟踪特征。通过对公共基准进行广泛实验，验证了我们提出方法的有效性。

May, 2024

GoMatching：基于长短期匹配的视频文字定位的简单基线

在本文中，我们提出了一种名为 GoMatching 的简单基线方法，通过在跟踪任务中集中训练的努力来提高视频文本识别的性能，同时在图像文本识别任务上保持强大的性能表现。通过添加重新评分头和设计长短期匹配模块，GoMatching 在两个公共基准测试集上取得了令人印象深刻的性能。

Jan, 2024

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022