Apr, 2023

增强自然语言处理的语义分词器

TL;DR本研究提出了一种基于语义的新型分词器,使用词干来增强子词的形成,最小化未编码的单词数量,对接 Trainer,实现了比 SentencePiece 分词器更高效的分词,并在 BERT 模型上实验,表明此方法可以将单词数量提高一倍以上,并显着提高 NLP 模型的收敛速度和单词及句子嵌入的质量,成绩排名 Glue 任务之前,比同等规模的模型优越 50 倍以上。