EMNLPApr, 2020
Byte Pair Encoding 不适用于语言模型预训练
Byte Pair Encoding is Suboptimal for Language Model Pretraining
Kaj Bostrom, Greg Durrett
TL;DR分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。