通过另类空格处理提高 Token 切分效果
本研究提出对于不同语言的信息检索及词法匹配的算法 (BM25 等) 使用 WordPiece 分词器的方法,通过对来自不同语言的数据进行实验,证明该方法能够在多数情况下优于白空格分词器,并能更进一步提高自定义分词器的效果。
Oct, 2022
深入探讨法语生物医学领域中子词标记化的复杂性,并确定可以进行进一步改进的领域,同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法,并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。
Feb, 2024
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
Apr, 2024
提出了一种新颖的字节级解码器架构 SpaceByte,通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化,通过在特定的字节后插入这些更大块,如空格字符,来提高性能。实验结果显示,在固定的计算资源下,SpaceByte 的性能优于其他字节级架构,大致与分词的 Transformer 架构相匹配。
Apr, 2024
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021
通过广泛实验,我们发现较少的令牌并不会导致更好的下游性能,从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策,特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。
Feb, 2024
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023