Apr, 2023
增强自然语言处理的语义分词器
Semantic Tokenizer for Enhanced Natural Language Processing
TL;DR本研究提出了一种基于语义的新型分词器,使用词干来增强子词的形成,最小化未编码的单词数量,对接Trainer,实现了比SentencePiece分词器更高效的分词,并在BERT模型上实验,表明此方法可以将单词数量提高一倍以上,并显着提高NLP模型的收敛速度和单词及句子嵌入的质量,成绩排名Glue任务之前,比同等规模的模型优越50倍以上。