Jun, 2023

因式化子词编码的分词

TL;DR本文提出一种新的标记方法,使用VQ-VAE模型将子词分解为离散三元组,结果表明所提出的Factorizer标记方法在语言建模和形态句法任务方面比常用的字节对编码(BPE)标记算法更为适合和稳健。