BriefGPT.xyz
Oct, 2024
基于有限状态传导的分词方法
Tokenization as Finite-State Transduction
HTML
PDF
Marco Cognetta, Naoaki Okazaki
TL;DR
本文研究了分词在现代神经语言模型中的重要性,提出了一个有限状态传导框架,以有效编码正规语言的所有可能分词方案。研究表明,流行的分词方案如字节对编码(BPE)和最大匹配(WordPiece)可以融入此框架中,进而实现引导生成中模式的精准匹配,这为未来的模型输出提供了新的约束方法。
Abstract
Tokenization
is the first step in modern neural language model pipelines where an input text is converted to a sequence of subword tokens. We introduce from first principles a
Finite-State Transduction
framework
→