通过掩码语言建模任务,结合阿卡德语等,我们的研究在古代美索不达米亚文献的文字补充方面达到了最新水平,并在人类背景下进行了实验,证明了在辅助专家转录已灭绝语言的文本方面的适用性。
Sep, 2021
该研究论文探讨了文化遗产的保存与恢复问题,并提出了一种基于多模态深度学习的古代文字恢复模型(MMRM),通过结合上下文理解和损坏古代文物的残留视觉信息,实现同时预测损坏字符并生成恢复图像的功能。实验结果表明该方法在模拟实验和实际古代铭文中给出了有价值的恢复建议,为古代社会和文化的理解提供了贡献。
Mar, 2024
基于深度学习和变分自编码器方法,针对库内容丰富的超过 94,000 张楔形文字片的数据集,通过研究其轮廓形状作为关键指标,成功实现了古代文献的自动分类和时代定位,为历史学家和铭刻学家提供了更深入的洞察和解释工具。
Jun, 2024
本文提出了一种基于自我关注机制的多任务学习方法,用于恢复和翻译历史文献,并通过主题建模进行了深入的探索分析,揭示了多个重要历史事件。
Apr, 2021
利用 DeepScribe 模块,能够从阿契美尼德王朝时期的楔形文字片段中,通过目标检测、分类和聚类等机器学习技术,提供有效的翻译建议。
Jun, 2023
这篇论文介绍了 Pythia,它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型,在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。
Oct, 2019
本文介绍了一种基于递归神经网络和卷积神经网络的模型,可以在分类下一个短文本时利用前面的短文本,该模型在三个不同的数据集上取得了最先进的对话行为预测结果。
Mar, 2016
我们的研究通过合成数据的方法,为古代亚述文字符号生成了大规模的数据集,以此训练人工神经网络以提高掌握这些古代碑文的能力。通过验证实验,我们验证了该模型在处理多样的真实场景中的能力,并证明了我们合成数据方法的可行性,避免了对稀缺的训练数据的依赖,从而提高了对受损碑文的解读准确性和对历史资源的知识提取。
Oct, 2023
使用新的多阶段方法生成 OCR 错误的人工训练数据集,并进行超参数优化,以构建有效的神经网络来纠正希伯来语的 OCR 后校正。
Jul, 2023
通过数字化古代近东研究(DANES)社区的挑战,我们开发了用于处理楔形文字的数字工具,这是一种镌刻在泥板上的三维文字,使用了三千多年和至少八种主要语言。我们创建和使用了 HeiCuBeDa 和 MaiCuBeDa 数据集,包含约 500 个带注释的泥板。我们的新型 OCR 样式方法针对混合图像数据,提供了一种在三维渲染和照片之间转移注释的映射工具。我们使用 GigaMesh 的 MSII(曲率,参见此处链接)基于渲染、Phong 阴影的三维模型和照片以及光照增强的图像数据进行符号定位。结果显示,使用渲染的 3D 图像进行符号检测比其他研究使用的照片效果更好。此外,我们的方法在仅使用照片时也能得到合理的结果,但在混合数据集中效果最好。更重要的是,Phong 渲染,特别是 MSII 渲染,提高了照片的结果,这是全球规模最大的数据集。
Aug, 2023