May, 2024

文本识别的自我监督预训练

TL;DR本文研究了文档文本识别的自监督预训练方法,探索了利用未标记数据的方法,并提出了基于掩码标签预测的自监督预训练方法,以及联合嵌入方法和模型崩溃预防技术。通过在历史手写和历史印刷数据集上的实验表明,自监督预训练在目标领域数据上非常有效,但在与之密切相关的领域上的迁移学习上却表现不佳。