HABD:侯马联盟书古代手写字符识别数据库
这篇论文介绍了 Pythia,它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型,在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。
Oct, 2019
本文提出了一个新的数字化的厚磨联盟书古代手写字符数据库以及多模式融合方法,旨在提高辨认古代字符的效率并提供更可靠的技术支持和文本数据。实验结果首先为新数据库提供了基准结果,然后证明了我们提出的方法的效率。
Jul, 2022
通过一种新颖的一次学习文本定位方法,即One-shot learning-based Text Spotting (OTS)方法,该方法结合了认知研究中的方法,通过空间对齐模块来找到并学习查询图像中最具有区分性的空间区域。同时,引入一种名为环形损失(Torus loss)的新型损失函数,使得嵌入距离空间更具有区分性。我们自己创建了包含古代东巴象形文字的手稿数据集,并在公开数据集上进行了实验,结果表明该方法在一次性文本定位方面优于现有方法。通过OTS方法,有望在历史手稿文本识别方面有更好的应用。
Apr, 2023
使用大量自我监督训练的视觉变换器(ViT),通过对数字化字体进行增强,开发了一种可扩展的方法来测量OCR文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本,与其他广泛使用的字符串匹配方法相比,可以显著提高记录链接的精度,因为OCR错误往往是同形异义字的。 通过创建古代汉字的同形异义字集合,可以捕捉古代社会不同抽象概念的关系。
May, 2023
拜仁学院的中世纪拉丁字典数字化工作,采用了端到端的流水线,包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集,并尝试不同的基于Transformer的模型进行实验,采用丰富的数据增强技术,最佳设置的字符错误率为0.015,表现优于商业的谷歌云视觉模型并且更加稳定。
Aug, 2023
历史抄写员识别是获取过去信息的重要任务。本文展示了跨编码器训练数据对CNN基于文本无关离线识别历史抄写员的重要性,以克服编码器依赖过拟合。我们通过实验报告得出三个主要发现:首先,使用屏蔽灰度图像的预处理明显提高了分类结果的F1分数,而不是使用RGB图像。其次,我们使用不同的神经网络对复杂数据进行训练,验证时间和准确率之间的差异,以确定最可靠的网络架构。使用AlexNet,即在F1分数和时间之间取得最佳权衡的网络,我们在分类中在行级别上获得了高达0.96的F1分数,在页级别上获得了高达1.0的F1分数。第三,我们验证了通过实施拒绝选项可以进一步改善CNN输出,从而获得更稳定的结果。我们展示了我们的大规模开源数据集--Codex Claustroneoburgensis数据库(CCl-DB)--中的结果,包含了来自几种不同编码器的多个写手的大量写作。我们首次在具有如此多样化的编码器数据集上展示,使用CNN自动且准确地复现了古文献学决策。这为古文献学家提供了多种新快速获取未标记材料见解的方法,也有助于发展更多的假设。
Dec, 2023
创造了华中科技大学甲骨学数据集,包括77,064张已解码甲骨文字图像和62,989张未解码字符的图像,共计140,053张图像,为未知甲骨文字的解码研究提供了帮助。
Jan, 2024
该研究论文探讨了文化遗产的保存与恢复问题,并提出了一种基于多模态深度学习的古代文字恢复模型(MMRM),通过结合上下文理解和损坏古代文物的残留视觉信息,实现同时预测损坏字符并生成恢复图像的功能。实验结果表明该方法在模拟实验和实际古代铭文中给出了有价值的恢复建议,为古代社会和文化的理解提供了贡献。
Mar, 2024
玛雅象形文字的研究通过人工智能提供了一种新的透视方式,可以翻译这些铭文,有潜力让非专家阅读这些文本,并帮助解密那些仍无法全面解释的象形文字。我们利用基础模型从一个专注于玛雅文物的开源数字图书馆中分割玛雅象形文字,通过专家在玛雅艺术和历史方面的协助,精心策划了图像和标签配对,使这些基础模型的性能得到显著提高,展示了精调方法的潜力和我们不断扩大的数据集的价值。我们计划开源这一数据集,鼓励未来的研究,并最终帮助更广泛的社区阅读玛雅象形文字,特别是玛雅遗产社区的成员。
May, 2024
本研究解决了叙利亚语作为一种古老且濒危语言在数字化过程中的不足。通过创建KHAMIS数据集,研究者对手写叙利亚文本进行了光学字符识别模型的开发,实现了相较于Tesseract默认模型的显著性能提升,开辟了更多数字服务的可能性。该模型的字符错误率达到了1.097-1.610%,为叙利亚文的数字化提供了重要工具。
Aug, 2024