Feb, 2024

多词标记化用于序列压缩

TL;DR我们提出了一种名为MWT的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减少序列长度,使推理速度更快、负载更轻,而性能几乎不受影响。我们的结果表明,MWT在较短的序列长度上更加稳健,从而通过早期序列截断实现主要的加速。