Mar, 2022

使用 Transformer 进行端到端的视频文本识别

TL;DR本研究基于 Transformer 序列建模,提出了一个简单而有效的端到端视频文本识别框架 TransDETR,它能够同时处理文本检测、跟踪和识别,通过两个主要优点:1) 在长序列中使用文本查询跟踪和识别每个文本,2) 在四个视频文本数据集上验证 TransDETR 具有最先进的性能,其中视频文本识别任务性能提高了 8.0%左右。