Jun, 2021
中文预训练语言模型的子字分词
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining
TL;DR为了利用中文语言系统中存在的字符下的语言信息,我们提出了一种基于SubChar(即SubCharacter)的分词方法,该方法通过将每个汉字转换为一个基于其字形或发音的短序列,再基于编码后的文本进行子词分割来构建词汇表,实验结果表明SubChar的分词器相比现有分词器有两个主要优势:它们可以将输入标记为更短的序列,从而提高计算效率;以发音为基础的SubChar分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出,从而具有抗同音错误的鲁棒性。