Jun, 2024

无监督形态树分词器

TL;DR通过引入形态结构指导标记,提出了一种深度模型来诱导单词的字符级结构,该方法在形态分割任务和语言建模任务上表现良好,并优于 BPE 和 WordPiece 等广泛采用的方法。