BriefGPT.xyz
Ask
alpha
关键词
multi-word tokenizer
搜索结果 - 1
EMNLP
多词标记化用于序列压缩
我们提出了一种名为 MWT 的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT 产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减
→
PDF
5 months ago
Prev
Next