Dec, 2023

中世纪手稿可靠抄写者识别的跨码学习

TL;DR历史抄写员识别是获取过去信息的重要任务。本文展示了跨编码器训练数据对CNN基于文本无关离线识别历史抄写员的重要性,以克服编码器依赖过拟合。我们通过实验报告得出三个主要发现:首先,使用屏蔽灰度图像的预处理明显提高了分类结果的F1分数,而不是使用RGB图像。其次,我们使用不同的神经网络对复杂数据进行训练,验证时间和准确率之间的差异,以确定最可靠的网络架构。使用AlexNet,即在F1分数和时间之间取得最佳权衡的网络,我们在分类中在行级别上获得了高达0.96的F1分数,在页级别上获得了高达1.0的F1分数。第三,我们验证了通过实施拒绝选项可以进一步改善CNN输出,从而获得更稳定的结果。我们展示了我们的大规模开源数据集--Codex Claustroneoburgensis数据库(CCl-DB)--中的结果,包含了来自几种不同编码器的多个写手的大量写作。我们首次在具有如此多样化的编码器数据集上展示,使用CNN自动且准确地复现了古文献学决策。这为古文献学家提供了多种新快速获取未标记材料见解的方法,也有助于发展更多的假设。