Jul, 2018

通用词语分割:实现与解释

TL;DR本篇论文介绍了一种序列标注框架,并将其应用于具有不同书写系统和类型特征的多种语言的单词分割,结果表明,单词分割的准确性与单词边界标记正相关并与非分割术语数量负相关。在此基础上,设计了一套小的语言特定设置,并基于 Universal Dependencies 数据集进行广泛评估,结果表明该模型在所有 UD 语言上获得了最先进的精度,在中文、日语、阿拉伯语和希伯来语等难以划分的语言上表现显著优于以前的工作。