通过另类空格处理提高 Token 切分效果

EMNLPApr, 2022

通过另类空格处理提高 Token 切分效果

Improving Tokenisation by Alternative Treatment of Spaces

Edward Gow-Smith, Harish Tayyar Madabushi, Carolina Scarton, Aline Villavicencio

TL;DR本研究以 BPE 和 Unigram 算法为基础，通过将空格始终视为单独的标记，提出了一种新的分词方法，以改善复杂词汇的处理效果，并在下游 NLP 任务中取得了良好的表现。

Abstract

tokenisation is the first step in almost all nlp tasks, and state-of-the-art transformer-based language models all use subword tokenisation

tokenisation nlp tasks subword tokenisation algorithms transformer-based models bpe and unigram algorithms

发现论文，激发创造

编码器语言模型不需要词边界信息

通过多项实验证明，修改标记器以去除单词边界信息并不会导致有用信息的丧失。

Jan, 2024

优于空格：无自定义分词器语言的信息检索

本研究提出对于不同语言的信息检索及词法匹配的算法 (BM25 等) 使用 WordPiece 分词器的方法，通过对来自不同语言的数据进行实验，证明该方法能够在多数情况下优于白空格分词器，并能更进一步提高自定义分词器的效果。

Oct, 2022

法语医学口罩语言模型中的 tokenization 有多重要？

深入探讨法语生物医学领域中子词标记化的复杂性，并确定可以进行进一步改进的领域，同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法，并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。

Feb, 2024

关于 LLMs 中的分词理论

通过研究变压器在简单数据生成过程上的行为，我们探讨了词汇标记的理论视角，发现词汇标记对于变压器模型的训练是必要的，并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。

Apr, 2024

SpaceByte：大规模语言模型中消除分词的研究

提出了一种新颖的字节级解码器架构 SpaceByte，通过在层次结构中插入更大的 Transformer 块对字节级别和子词级别语言模型建模的性能差距进行优化，通过在特定的字节后插入这些更大块，如空格字符，来提高性能。实验结果显示，在固定的计算资源下，SpaceByte 的性能优于其他字节级架构，大致与分词的 Transformer 架构相匹配。

Apr, 2024

分词不足：分词的诅咒

大型语言模型存在分词问题，导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响，并展示模型参数缩放与子词规范化对解决这些问题的作用。

Jun, 2024

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研 pre-neural 和 neural era 中的多种技术，探讨自然语言处理中的 “微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021

分词不仅仅是压缩

通过广泛实验，我们发现较少的令牌并不会导致更好的下游性能，从而对有效的标记化原因的理解产生了怀疑。我们评估了标记化的三个阶段的设计决策，特别强调了预标记化的重要性和使用字节对编码 (BPE) 进行初始化词汇构建的好处。

Feb, 2024

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节 / 字符聚合成词表示，并在主要语言模型中解码个别字符 / 字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好，特别是在稀有词方面达到了 30 倍的效果提升。

Oct, 2023

分析子词切分的认知可信度

对比了三种分词算法在多种语言和词汇量上，发现 UnigramLM 算法在分词行为上的认知合理性较低，且派生形态的覆盖率较低。

Oct, 2023