May, 2023

使用 Vision Transformers 量化字符相似度

TL;DR使用大量自我监督训练的视觉变换器(ViT),通过对数字化字体进行增强,开发了一种可扩展的方法来测量 OCR 文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本,与其他广泛使用的字符串匹配方法相比,可以显著提高记录链接的精度,因为 OCR 错误往往是同形异义字的。 通过创建古代汉字的同形异义字集合,可以捕捉古代社会不同抽象概念的关系。