因式化子词编码的分词

Jun, 2023

Tokenization with Factorized Subword Encoding

David Samuel, Lilja Øvrelid

TL;DR本文提出一种新的标记方法，使用VQ-VAE模型将子词分解为离散三元组，结果表明所提出的Factorizer标记方法在语言建模和形态句法任务方面比常用的字节对编码（BPE）标记算法更为适合和稳健。

Abstract

In recent years, language models have become increasingly larger and more complex. However, the input representations for these models continue to rely on simple and greedy subword tokenization methods. In this p

发现论文，激发创造

从词到字：自然语言处理中开放词汇建模和分词的简史

本文通过调研pre-neural 和 neural era中的多种技术，探讨自然语言处理中的“微观结构”（从字节到词组）建模方式是否应采用字符级或字节级处理，或采取分词处理的基于子字的方法，得出结论：没有一种万能的处理方式适用于所有情况，仍需要认真考虑分词对于不同应用场景的重要性。

Dec, 2021

令牌化对语言模型的影响：针对土耳其语的分析

本文研究了在土耳其语(OSCAR corpus)的分裂数据上，比较了不同粒度级别的分词器的性能和预训练语言模型的效果，并发现单独定制的分子级别分词器具有挑战性的表现，同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用RoBERTa预训练的中型语言模型的性能。

Apr, 2022

增强自然语言处理的语义分词器

本研究提出了一种基于语义的新型分词器，使用词干来增强子词的形成，最小化未编码的单词数量，对接Trainer，实现了比SentencePiece分词器更高效的分词，并在BERT模型上实验，表明此方法可以将单词数量提高一倍以上，并显着提高NLP模型的收敛速度和单词及句子嵌入的质量，成绩排名Glue任务之前，比同等规模的模型优越50倍以上。

Apr, 2023

学习您的标记：用于语言建模的单词汇总分词

这篇论文通过学习词边界将字节/字符聚合成词表示，并在主要语言模型中解码个别字符/字节，结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节/字符模型更好，特别是在稀有词方面达到了30倍的效果提升。

Oct, 2023

重新思考分词：为大型语言模型打造更好的分词器

通过追踪分词器从词级到子词级的演变，本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的“最省力原则”，本文提出了一种新的 LLN 分词器 LiB 模型，它可以自主学习由子词、词和多词表达式组成的综合词汇，从而有效减少标记和类型的数量。比较评估显示，LiB 分词器优于现有的词级和 BPE 分词器，为分词器开发提供了创新方法，并提示未来的基于认知科学的分词器可能更为高效。

Mar, 2024

拆解标记化: 评估文本压缩及其与模型性能的相关性

通过变化训练数据的数量，我们研究了BPE tokenizers的压缩能力对预训练语言模型下游性能的影响，我们发现压缩能力与模型性能存在相关性，因此构建压缩效果更好的tokenizer是一个有前景的研究方向。

Mar, 2024

评估次词标记化：外语次词组合与OOV泛化挑战

我们提出了一种联合内在-外在评估框架用于子词切分，通过UniMorph Labeller工具对子词切分进行内在评估，将其分类为形态还是外语；然后通过Out-of-Vocabulary Generalization Challenge 1.0基准进行外在评估，包括三个新指定的下游文本分类任务；我们的实证研究发现，UniMorph Labeller的准确率达到了98%；而在所有语言模型（包括ALBERT、BERT、RoBERTa和DeBERTa）中，与形态切分相比，外语切分导致了更差的泛化能力，影响了词义的语义组合性。

Apr, 2024

无监督形态树分词器

通过引入形态结构指导标记，提出了一种深度模型来诱导单词的字符级结构，该方法在形态分割任务和语言建模任务上表现良好，并优于BPE和WordPiece等广泛采用的方法。

Jun, 2024

基于有限状态传导的分词方法

本文研究了分词在现代神经语言模型中的重要性，提出了一个有限状态传导框架，以有效编码正规语言的所有可能分词方案。研究表明，流行的分词方案如字节对编码（BPE）和最大匹配（WordPiece）可以融入此框架中，进而实现引导生成中模式的精准匹配，这为未来的模型输出提供了新的约束方法。

Oct, 2024

团队Ryu对SIGMORPHON 2024子词标记化共享任务的提交

本研究解决了子词标记化中语义分割方法的有效性，特别是在SIGMORPHON 2024取消的共享任务中。本文采用了统计分割方法Morfessor和基于变换器的序列到序列模型，发现形态分割法与常用子词标记处理方法的效果相当。此外，研究表明，词汇的平衡分布能显著优化语言模型的表现。

Oct, 2024