ACLJun, 2023

字节对编码的形式化视角

TL;DR通过子模函数,我们将 BPE 形式化为组合优化问题,并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-(1-e^(sigma (mu*)))- 近似,其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外,我们优化了朴素算法以实现最佳 BPE。