Feb, 2024

J-UniMorph: 通过通用特征模式进行日语形态注释

TL;DR我们介绍了一个基于 UniMorph 特征结构的日语形态学数据集 J-UniMorph,该数据集解决了普遍存在于该语言中的具有凝结性特点的动词形式。相比于从维基词典自动提取的现有日语 UniMorph 子集,J-UniMorph 在每个词中提供了更广泛、更常用的 118 个屈折形式,包括敬语、不同的礼貌水平和其他语言细微差异,突出了日语的独特特点。本文详细介绍了 J-UniMorph 的统计数据和特征,并将其与维基词典版进行了比较。我们公开发布了 J-UniMorph 及其交互式可视化工具,旨在支持跨语言研究和各种应用。