EMNLPMay, 2022

无监督标记学习

TL;DR本研究发现,相比于互信息和条件概率等统计度量方法,所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳,跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现,不同的语言需要该度量方法的不同分支(如导数、方差和 “峰值”)才能实现成功的分词。 更大的训练语料库不一定会导致更好的分词质量,而通过消除统计上薄弱的证据来压缩模型往往会提高性能。 该无监督分词技术提供的质量优于或与基于词典的技术相媲美,具体效果取决于语言。