CVPRMay, 2021

面向任意形状场景文本的大规模端到端推理

TL;DR本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本​​检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本​​推理,以达到新的 TextVQA 数据集上的最新性能水平。