Apr, 2024

SpaceByte:大规模语言模型中消除分词的研究

TL;DR提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的计算资源下,SpaceByte 的性能优于其他字节级架构,大致与分词的 Transformer 架构相匹配。