楚简脚本的多模态多粒度分词器
本文提出了一种新的远程监督方法来增加古代汉语分词和词性标注的数据,利用深度神经网络的记忆效应和少量已注释数据来重新标记句子,以解决远程监督中不可避免的错误和未标记的问题,取得了优异的分词效果。
Mar, 2023
使用大量自我监督训练的视觉变换器(ViT),通过对数字化字体进行增强,开发了一种可扩展的方法来测量OCR文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本,与其他广泛使用的字符串匹配方法相比,可以显著提高记录链接的精度,因为OCR错误往往是同形异义字的。 通过创建古代汉字的同形异义字集合,可以捕捉古代社会不同抽象概念的关系。
May, 2023
我们介绍了古籍BERT和古籍GPT这两个基础模型,通过在包含简体和繁体中文字符的数据集上训练,这两个模型可以有效地处理与古籍相关的自然语言处理任务,这表明了使用自监督方法进一步训练模型能够提高其应对下游任务的能力。同时,我们开发了三个不同类别的共九个模型变体,以满足数字人文和语言学研究人员的不同文本处理偏好。
Jul, 2023
创造了华中科技大学甲骨学数据集,包括77,064张已解码甲骨文字图像和62,989张未解码字符的图像,共计140,053张图像,为未知甲骨文字的解码研究提供了帮助。
Jan, 2024
利用中文历史信息抽取语料库(CHisIEC)推进古代历史和文化研究,实现对命名实体识别和关系提取任务的开发和评估,涵盖13个朝代超过1830年的历史时间线的数据,包括四种实体类型和十二种关系类型。
Mar, 2024
通过使用Puzzle Pieces Picker(P$^3$)这一新颖方法进行基体重建,该研究旨在解密大量未解谜的甲骨文,以揭示这种古老文字的秘密,并通过开发Ancient Chinese Character Puzzles(ACCP)数据集,能够更好地理解中国古代文字的历史和文化背景。
Jun, 2024
这篇论文提出了一个Oracle Bone Inscriptions多模态数据集(OBIMD),其中包括10,077块甲骨的注释信息,为早期商代历史和古文字学的研究提供了全面而高质量的注释级别。该数据集可以用于OBI领域相关的各种人工智能研究任务,如甲骨文字的检测和识别,擦拭去噪,文字匹配,文字生成,阅读序列预测,缺失字符补充等。我们相信这样一个数据集的创建和发布将有助于显著推进人工智能算法在OBI研究领域的应用。
Jul, 2024
本研究解决了古代表意文字系统转录困难的问题,提出了LogogramNLP基准,使古代表意语言的NLP分析成为可能。研究发现,在某些任务中,视觉表示优于文本表示,这表明视觉处理方法能够有效挖掘大量古代文化遗产数据。
Aug, 2024
本研究解决了古代汉字文本缺乏标点符号导致的语义理解困难问题。研究提出了一种基于双向多层LSTM和多头注意力机制的新方法,显著提升了对古代汉字文本标点位置和类型的预测准确性。研究结果表明,该方法在处理古代汉字文本时的表现优于未采用这些组件的RNN模型,具有重要的学术价值和实践意义。
Sep, 2024