Sep, 2024

楚简脚本的多模态多粒度分词器

TL;DR本研究针对解读古代中国楚简脚本中的复杂层次结构,提出了一种多模态多粒度分词器。通过实施字符边界检测和字符及子字符级别的识别,我们开发了一个大规模的楚简标注数据集,并在词性标注任务中显著提高了F1-score。这项工作不仅促进了楚简的深入研究,也可能推动其它古代中国书写形式的研究。