Apr, 2024

DLoRA-TrOCR:基于 Transformer 的混合文本模式光学字符识别

TL;DR本研究旨在通过对预训练基础 OCR 模型进行有效的参数微调,在各种下游任务中展示出卓越的性能。我们提出了一种基于预训练 OCR Transformer 的参数高效混合文本识别方法,即 DLoRA-TrOCR。该方法将 DoRA 嵌入图像编码器和 LoRA 嵌入文本解码器的内部结构,使得下游任务的参数微调更加高效。实验结果表明,与类似的参数调整方法相比,我们的模型 DLoRA-TrOCR 具有最少的参数,并且表现更好。它可以在包括混合手写、印刷和街景文本的复杂场景数据集上取得最先进的性能。