Jun, 2024

不应仅依赖自然语言训练的明确识别

TL;DR使用基于 Transformer 的架构进行 LaTeX 文本识别,识别到存在的 “偏差” 问题并提出使用混合数据集训练的 LaTeX 打印文本识别模型,该模型在编码器中采用 Swin Transformer,解码器中采用 RoBERTa 模型。实验结果表明,该方法减小了 “偏差”,提高了文本识别的准确性和鲁棒性。对于清晰图像,模型严格遵循图像内容;对于模糊图像,它整合图像和上下文信息以产生合理的识别结果。