Sep, 2024

HTR-VT:基于视觉变换器的手写文本识别

TL;DR本研究针对手写文本识别中的数据标注稀缺问题,提出了一种高效的数据利用的视觉变换器方法。通过采用卷积神经网络提取特征并引入焦点感知最小化优化器,显著提高了模型性能。此外,采用的跨度掩码技术作为正则化手段,在小数据集上表现出色,并在LAM数据集上建立了新的基准。