使用 Transformer 进行端到端的视频文本识别

Mar, 2022

使用 Transformer 进行端到端的视频文本识别

End-to-End Video Text Spotting with Transformer

Weijia Wu, Yuanqiang Cai, Chunhua Shen, Debing Zhang, Ying Fu...

TL;DR本研究基于 Transformer 序列建模，提出了一个简单而有效的端到端视频文本识别框架 TransDETR，它能够同时处理文本检测、跟踪和识别，通过两个主要优点：1) 在长序列中使用文本查询跟踪和识别每个文本，2) 在四个视频文本数据集上验证 TransDETR 具有最先进的性能，其中视频文本识别任务性能提高了 8.0％左右。

Abstract

Recent video text spotting methods usually require the three-staged pipeline, i.e., detecting text in individual images, recognizing localized text, tracking text streams with post-processing to generate final re

video text spotting transdetr end-to-end tracking sequence modeling

发现论文，激发创造

TubeDETR: 基于 Transformer 的时空视频锚定

提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Mar, 2022

TransVOD: 基于空间 - 时间变换器的端到端视频目标检测

本文提出了一种基于 Transformer 和 DETR 的视频目标检测系统 TransVOD，通过时间 Transformer 和 Temporal Deformable Transformer Decoder 的设计，能够提高复杂的手工设计检测器的性能，同时在 ImageNet VID 数据集上获得了新的最佳结果。

Jan, 2022

使用 Transformer 进行端到端的目标检测

该研究提出了一种新方法，将目标检测作为直接集合预测问题进行处理，主要采用基于集合的全局损失和 Transformer 编码器 - 解码器架构构建 DETR 模型，能够高效地完成目标检测和全景分割任务，相较于许多现代检测器，DETR 模型概念简单且不需要专门的库。

May, 2020

You Only Recognize Once: 面向快速视频文本定位

本文提出了一种快速且强健的视频文本识别框架，通过一次性识别局部文本，避免了针对每一帧的文本识别，使用文本推荐器从文本流中选择高质量文本并仅对其进行识别，大大加快了视频文本识别的速度，在公共基准测试中实现了显著的最先进效果，并推出了一个促进视频文本识别社区发展的数据集（LSVTD）.

Mar, 2019

一种端到端的视频文本检测器，具备在线跟踪功能

本文介绍一种基于 ConvLSTM 和在线跟踪的视频文本检测方法，将检测和跟踪的两个任务结合起来，提高了检测精度，降低了计算成本，并且实验表明该方法在 ICDAR2013 Video、Minetto 和 YVT 等数据集上均有极大的优势。

Aug, 2019

文本检测变形金刚

本文提出了一种名为 TESTR 的通用的基于 Transformers 的端到端的文本检测与识别框架，其有效地解决了曲线文本框表示所需要的特殊关注的问题，并在曲线和任意形状的数据集上展现出最先进的性能。

Apr, 2022

DPText-DETR: 基于 Transformer 与动态点的更好的场景文本检测

本文提出了一种 DPText-DETR 算法，利用明确的点坐标直接生成位置查询，并动态地以渐进的方式更新它们。同时，提出了一种增强的分解自我注意力模块，为每个实例提供具有圆形形状指导的点查询，以及一种简单而有效的位置标签形式来解决之前形式的副作用，在 500 个手动标记的图像上进行了实验证明了本方法在各种基准测试中的高训练效率、鲁棒性和最先进性能。

Jul, 2022

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

使用多任务变压器实现弱监督文本识别

介绍一种基于 transformer 的文本定位方法 TextTranSpotter (TTS)，该方法可以在全监督和弱监督的情况下训练，并使用基于 Hungarian loss 的新型损失函数，不需要昂贵的本地化注释，通过每个单词检测学习单一潜在表示，实现了与先前最先进的全监督方法相当的性能。

Feb, 2022

TextFormer：一种基于查询的端对端混合监督文字定位器

TextFormer 提出了一种使用 Transformer 架构实现的查询式端到端文本定位算法，采用多任务建模的联合语义理解，并通过自适应全局聚合模块处理任意形状的文本，通过弱监督和全标注的语料库信息提升检测和端到端文本定位结果，实现了在双语数据集上的显著优势。

Jun, 2023