Oct, 2024

基于有限状态传导的分词方法

TL;DR本文研究了分词在现代神经语言模型中的重要性,提出了一个有限状态传导框架,以有效编码正规语言的所有可能分词方案。研究表明,流行的分词方案如字节对编码(BPE)和最大匹配(WordPiece)可以融入此框架中,进而实现引导生成中模式的精准匹配,这为未来的模型输出提供了新的约束方法。