EMNLPApr, 2020

Byte Pair Encoding 不适用于语言模型预训练

TL;DR分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。