使用循环神经网络恢复不完整的巴比伦文本

Mar, 2020

使用循环神经网络恢复不完整的巴比伦文本

Restoration of Fragmentary Babylonian Texts Using Recurrent Neural Networks

Ethan Fetaya, Yonatan Lifshitz, Elad Aaron, Shai Gordin

TL;DR通过对主要来源于古代美索不达米亚历史文化的粘土楔形文字进行网络模型建模，研究自动补全阿奇美尼德时期巴比伦的古代阿卡德语文本中的断裂的可能性。

Abstract

The main source of information regarding ancient mesopotamian history and culture are clay cuneiform tablets. Despite being an invaluable resource, many tablets are fragmented leading to missing information. Curr

mesopotamian history cuneiform tablets automated text completion recurrent neural networks achaemenid period

发现论文，激发创造

填补古代阿卡德语文本中的空白：一种掩码语言建模方法

通过掩码语言建模任务，结合阿卡德语等，我们的研究在古代美索不达米亚文献的文字补充方面达到了最新水平，并在人类背景下进行了实验，证明了在辅助专家转录已灭绝语言的文本方面的适用性。

Sep, 2021

复原古代象形字：一种多模态多任务神经网络方法

该研究论文探讨了文化遗产的保存与恢复问题，并提出了一种基于多模态深度学习的古代文字恢复模型（MMRM），通过结合上下文理解和损坏古代文物的残留视觉信息，实现同时预测损坏字符并生成恢复图像的功能。实验结果表明该方法在模拟实验和实际古代铭文中给出了有价值的恢复建议，为古代社会和文化的理解提供了贡献。

Mar, 2024

塑造历史：三千年楔形文字片的高级机器学习技术分析和测定

基于深度学习和变分自编码器方法，针对库内容丰富的超过 94,000 张楔形文字片的数据集，通过研究其轮廓形状作为关键指标，成功实现了古代文献的自动分类和时代定位，为历史学家和铭刻学家提供了更深入的洞察和解释工具。

Jun, 2024

使用神经语言模型和机器翻译技术还原和挖掘朝鲜时代的记录

本文提出了一种基于自我关注机制的多任务学习方法，用于恢复和翻译历史文献，并通过主题建模进行了深入的探索分析，揭示了多个重要历史事件。

Apr, 2021

通过深度学习进行埃拉米楔形文字的定位和分类

利用 DeepScribe 模块，能够从阿契美尼德王朝时期的楔形文字片段中，通过目标检测、分类和聚类等机器学习技术，提供有效的翻译建议。

Jun, 2023

使用深度学习恢复古代文本：以希腊铭文为案例研究

这篇论文介绍了 Pythia，它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型，在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。

Oct, 2019

基于循环和卷积神经网络的连续短文本分类

本文介绍了一种基于递归神经网络和卷积神经网络的模型，可以在分类下一个短文本时利用前面的短文本，该模型在三个不同的数据集上取得了最先进的对话行为预测结果。

Mar, 2016

深度亚拉姆语：实现合成数据范式，在铭文学中开启机器学习

我们的研究通过合成数据的方法，为古代亚述文字符号生成了大规模的数据集，以此训练人工神经网络以提高掌握这些古代碑文的能力。通过验证实验，我们验证了该模型在处理多样的真实场景中的能力，并证明了我们合成数据方法的可行性，避免了对稀缺的训练数据的依赖，从而提高了对受损碑文的解读准确性和对历史资源的知识提取。

Oct, 2023

为历史希伯来文本的 OCR 错误修正构建特定时期优化的神经网络

使用新的多阶段方法生成 OCR 错误的人工训练数据集，并进行超参数优化，以构建有效的神经网络来纠正希伯来语的 OCR 后校正。

Jul, 2023

基于卷积神经网络的楔形文字标志检测，使用带灯光增强的标注三维渲染和映射照片

通过数字化古代近东研究（DANES）社区的挑战，我们开发了用于处理楔形文字的数字工具，这是一种镌刻在泥板上的三维文字，使用了三千多年和至少八种主要语言。我们创建和使用了 HeiCuBeDa 和 MaiCuBeDa 数据集，包含约 500 个带注释的泥板。我们的新型 OCR 样式方法针对混合图像数据，提供了一种在三维渲染和照片之间转移注释的映射工具。我们使用 GigaMesh 的 MSII（曲率，参见此处链接）基于渲染、Phong 阴影的三维模型和照片以及光照增强的图像数据进行符号定位。结果显示，使用渲染的 3D 图像进行符号检测比其他研究使用的照片效果更好。此外，我们的方法在仅使用照片时也能得到合理的结果，但在混合数据集中效果最好。更重要的是，Phong 渲染，特别是 MSII 渲染，提高了照片的结果，这是全球规模最大的数据集。

Aug, 2023