可解释的深度学习方法用于形态脚本类型分析
该研究项目提出了一种基于字符分割的新方法,使用卷积神经网络识别字符和语言模型合成单词转录,从而为停泊罗斯的手写文档大量转录节省时间和努力。
Mar, 2018
本研究提出了一个深度解释性的概率生成模型来分析印刷的早期现代文献中的字形。该模型引入神经网络来聚类提取的字形图像,以发现混杂多变的潜在模板。实验结果表明,我们的方法在无监督情况下发现文献中的字体,准确率优于刚性解释聚类和过度弹性的深度生成模型。
May, 2020
使用大量自我监督训练的视觉变换器(ViT),通过对数字化字体进行增强,开发了一种可扩展的方法来测量OCR文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本,与其他广泛使用的字符串匹配方法相比,可以显著提高记录链接的精度,因为OCR错误往往是同形异义字的。 通过创建古代汉字的同形异义字集合,可以捕捉古代社会不同抽象概念的关系。
May, 2023
我们的研究通过合成数据的方法,为古代亚述文字符号生成了大规模的数据集,以此训练人工神经网络以提高掌握这些古代碑文的能力。通过验证实验,我们验证了该模型在处理多样的真实场景中的能力,并证明了我们合成数据方法的可行性,避免了对稀缺的训练数据的依赖,从而提高了对受损碑文的解读准确性和对历史资源的知识提取。
Oct, 2023
通过图像处理技术识别被超级重印覆盖的历史手稿中的已擦除用墨,并借助人工智能技术解开重叠字母的复杂状况,本研究提出了基于深度学习的语义分割方法。以普里斯克里亚努斯的《语法艺术》为案例研究,本文探讨了该方法结合多光谱成像的预期与限制。
Nov, 2023
历史抄写员识别是获取过去信息的重要任务。本文展示了跨编码器训练数据对CNN基于文本无关离线识别历史抄写员的重要性,以克服编码器依赖过拟合。我们通过实验报告得出三个主要发现:首先,使用屏蔽灰度图像的预处理明显提高了分类结果的F1分数,而不是使用RGB图像。其次,我们使用不同的神经网络对复杂数据进行训练,验证时间和准确率之间的差异,以确定最可靠的网络架构。使用AlexNet,即在F1分数和时间之间取得最佳权衡的网络,我们在分类中在行级别上获得了高达0.96的F1分数,在页级别上获得了高达1.0的F1分数。第三,我们验证了通过实施拒绝选项可以进一步改善CNN输出,从而获得更稳定的结果。我们展示了我们的大规模开源数据集--Codex Claustroneoburgensis数据库(CCl-DB)--中的结果,包含了来自几种不同编码器的多个写手的大量写作。我们首次在具有如此多样化的编码器数据集上展示,使用CNN自动且准确地复现了古文献学决策。这为古文献学家提供了多种新快速获取未标记材料见解的方法,也有助于发展更多的假设。
Dec, 2023
玛雅象形文字的研究通过人工智能提供了一种新的透视方式,可以翻译这些铭文,有潜力让非专家阅读这些文本,并帮助解密那些仍无法全面解释的象形文字。我们利用基础模型从一个专注于玛雅文物的开源数字图书馆中分割玛雅象形文字,通过专家在玛雅艺术和历史方面的协助,精心策划了图像和标签配对,使这些基础模型的性能得到显著提高,展示了精调方法的潜力和我们不断扩大的数据集的价值。我们计划开源这一数据集,鼓励未来的研究,并最终帮助更广泛的社区阅读玛雅象形文字,特别是玛雅遗产社区的成员。
May, 2024
本研究解决了古代表意文字系统转录困难的问题,提出了LogogramNLP基准,使古代表意语言的NLP分析成为可能。研究发现,在某些任务中,视觉表示优于文本表示,这表明视觉处理方法能够有效挖掘大量古代文化遗产数据。
Aug, 2024
本研究解决了在历史古文书研究中,机器学习方法透明度和可解释性不足的问题。我们提出了NeuroPapyri模型,该模型通过引入注意力机制,提升了对古希腊纸卷图像的分析性能,同时提供了有助于决策的可视化图像区域。实验结果表明,NeuroPapyri在文献检索中的有效性,具有推动历史手稿分析的潜力。
Aug, 2024