Oct, 2023

学习您的标记:用于语言建模的单词汇总分词

TL;DR这篇论文通过学习词边界将字节/字符聚合成词表示,并在主要语言模型中解码个别字符/字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好,特别是在稀有词方面达到了30倍的效果提升。