楚简脚本的多模态多粒度分词器

Sep, 2024

Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts

Yingfa Chen, Chenlong Hu, Cong Feng, Chenyang Song, Shi Yu...

TL;DR本研究针对解读古代中国楚简脚本中的复杂层次结构，提出了一种多模态多粒度分词器。通过实施字符边界检测和字符及子字符级别的识别，我们开发了一个大规模的楚简标注数据集，并在词性标注任务中显著提高了F1-score。这项工作不仅促进了楚简的深入研究，也可能推动其它古代中国书写形式的研究。

Abstract

This study presents a multi-modal multi-granularity Tokenizer specifically designed for analyzing Ancient Chinese Scripts, focusing on the Chu bamboo slip (CBS) script used during the Spring and Autumn and Warrin

发现论文，激发创造

运用远程监督的古代汉语词语切分与词性标注

本文提出了一种新的远程监督方法来增加古代汉语分词和词性标注的数据，利用深度神经网络的记忆效应和少量已注释数据来重新标记句子，以解决远程监督中不可避免的错误和未标记的问题，取得了优异的分词效果。

Mar, 2023

使用Vision Transformers量化字符相似度

使用大量自我监督训练的视觉变换器（ViT），通过对数字化字体进行增强，开发了一种可扩展的方法来测量OCR文档的字符替换成本。使用字符表示之间的余弦距离作为编辑距离匹配算法中的替换成本，与其他广泛使用的字符串匹配方法相比，可以显著提高记录链接的精度，因为OCR错误往往是同形异义字的。通过创建古代汉字的同形异义字集合，可以捕捉古代社会不同抽象概念的关系。

May, 2023

GujiBERT和GujiGPT：建立智能信息处理基础语言模型的古代文本

我们介绍了古籍BERT和古籍GPT这两个基础模型，通过在包含简体和繁体中文字符的数据集上训练，这两个模型可以有效地处理与古籍相关的自然语言处理任务，这表明了使用自监督方法进一步训练模型能够提高其应对下游任务的能力。同时，我们开发了三个不同类别的共九个模型变体，以满足数字人文和语言学研究人员的不同文本处理偏好。

Jul, 2023

古代汉语CWS和POS的基于不确定性的检索框架

提出古代汉语词分割和词性标注框架，通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本，有效提升性能。

Oct, 2023

一个用于甲骨文识别和解读的开放数据集

创造了华中科技大学甲骨学数据集，包括77,064张已解码甲骨文字图像和62,989张未解码字符的图像，共计140,053张图像，为未知甲骨文字的解码研究提供了帮助。

Jan, 2024

CHisIEC: 古代中国历史信息抽取语料库

利用中文历史信息抽取语料库(CHisIEC)推进古代历史和文化研究，实现对命名实体识别和关系提取任务的开发和评估，涵盖13个朝代超过1830年的历史时间线的数据，包括四种实体类型和十二种关系类型。

Mar, 2024

拼图选择器：通过偏旁字重构解读古代汉字

通过使用Puzzle Pieces Picker（P$^3$）这一新颖方法进行基体重建，该研究旨在解密大量未解谜的甲骨文，以揭示这种古老文字的秘密，并通过开发Ancient Chinese Character Puzzles（ACCP）数据集，能够更好地理解中国古代文字的历史和文化背景。

Jun, 2024

甲骨文多模态数据集

这篇论文提出了一个Oracle Bone Inscriptions多模态数据集（OBIMD），其中包括10,077块甲骨的注释信息，为早期商代历史和古文字学的研究提供了全面而高质量的注释级别。该数据集可以用于OBI领域相关的各种人工智能研究任务，如甲骨文字的检测和识别，擦拭去噪，文字匹配，文字生成，阅读序列预测，缺失字符补充等。我们相信这样一个数据集的创建和发布将有助于显著推进人工智能算法在OBI研究领域的应用。

Jul, 2024

LogogramNLP：比较古代表意文字系统的视觉和文本表示以进行自然语言处理

本研究解决了古代表意文字系统转录困难的问题，提出了LogogramNLP基准，使古代表意语言的NLP分析成为可能。研究发现，在某些任务中，视觉表示优于文本表示，这表明视觉处理方法能够有效挖掘大量古代文化遗产数据。

Aug, 2024

预测古代汉字文本中的标点符号：一种多层LSTM和基于注意力的方法

本研究解决了古代汉字文本缺乏标点符号导致的语义理解困难问题。研究提出了一种基于双向多层LSTM和多头注意力机制的新方法，显著提升了对古代汉字文本标点位置和类型的预测准确性。研究结果表明，该方法在处理古代汉字文本时的表现优于未采用这些组件的RNN模型，具有重要的学术价值和实践意义。

Sep, 2024