May, 2025
基于可变形优化变换器架构的端到端文本识别与检索增强生成
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text
Recognition with Retrieval-Augmented Generation
TL;DR本文针对自然图像中的文本识别难题,提出了一种新颖的端到端框架,结合了ResNet和视觉变换器,并引入可变形卷积、检索增强生成和条件随机场等先进方法,以提升特征表示和光学字符识别(OCR)性能。实验结果表明,该方法在多个基准数据集上达到了新的最佳准确率,显示出其在多样性和挑战性数据集上的鲁棒性和有效性。