ECCVSep, 2022

Levenshtein OCR

TL;DR提出了一种基于 Vision-Language Transformer (VLT) 的新型场景文本识别器 (Levenshtein OCR),利用交叉模态 Transformer 相互融合和逐步近似 ground truth, 通过模拟学习,实现并行解码,动态长度变化和良好的可解释性。实验证明,LevOCR 在标准基准测试中实现了最新水平,LevOCR 算法的有效性和优势得到了定量和定性分析的验证。