ICLRAug, 2023

CodeBPE: 大规模语言模型在源代码上预训练的次词元化选项研究

TL;DR通过对源代码进行大规模语言模型预训练和不同子记号化选项的研究,本文旨在鉴定有效且长度高效的子记号化,并提出了一种可降低 17% 平均长度且不会降低下游性能的子记号化方法,进而提高了 0.5-2% 的质量。