May, 2024

利用嵌入向量提升细粒度格式分类的语义分割遮罩

TL;DR为了解决大规模历史文档分类的困难,我们提出了一种融合语义分割和深度学习模型的表征学习策略,通过 ResNets、CLIP、文档图像变换器(DiT)和掩码自编码器(MAE)来生成能够捕捉文档特征的嵌入,而无需预定义标签。我们还贡献了两个新颖的数据集 -- 法国 19 世纪和美国 1950 年人口普查记录 -- 来验证我们的方法。结果显示,这些不同的嵌入技术在区分相似文档类型方面的有效性,并且应用语义分割可以显著改善聚类和分类结果。