CVPRMay, 2021
面向任意形状场景文本的大规模端到端推理
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text
Amanpreet Singh, Guan Pang, Mandy Toh, Jing Huang, Wojciech Galuba...
TL;DR本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。