Nov, 2024

动态分词的(大)语言模型改造

TL;DR本文研究了当前语言模型使用固定的子词分词器所面临的效率和能力下降的问题,尤其是在英语以外的语言中。我们提出了一种动态分词的方法,能够基于输入文本动态决定分词边界,并引入了受字节对编码(BPE)启发的子词合并算法,显著提高了推理速度和在多语言环境中的公平性。