Sep, 2023

韩语中的词分割粒度

TL;DR这篇论文研究了韩语语言处理中的词分割粒度,通过将韩语从以空格分隔的词(eojeol)转化为一系列的语素,我们发现韩语存在多种可能的词分割粒度。对于特定的语言处理和语料库标注任务,已经提出和使用了几种不同的粒度级别,因为包括韩语在内的凝聚语言在功能语素和句法类别之间有一对一的映射关系。因此,我们对这些不同的粒度级别进行了分析,给出了韩语语言处理系统的实例以供参考。有趣的是,仅将功能语素(如格标记和动词词尾)分开,并保留其他后缀用于词态派生,将会得到短语结构分析的最佳性能,这与过去韩语语言处理的最佳实践相矛盾,过去的最佳实践被视为分离所有语素的默认标准,适用于各种应用场景。