ICLRApr, 2020

在非拉丁文本中使用 Punkt 进行句子分段:对库尔德语(索拉尼方言)文本的实验

TL;DR该研究旨在使用一种无监督机器学习方法(Punkt)对使用波斯 - 阿拉伯文本写的 Sorani 方言的库尔德语语料库进行分割。该实验取得了 91.10%的 F1 分数,但错误率达到了 16.32%,主要原因是在库尔德语中的缩写情况和序数数字。