EMNLPApr, 2022

通过另类空格处理提高 Token 切分效果

TL;DR本研究以 BPE 和 Unigram 算法为基础,通过将空格始终视为单独的标记,提出了一种新的分词方法,以改善复杂词汇的处理效果,并在下游 NLP 任务中取得了良好的表现。