GPT-SW3多语言分词器的训练和评估

Apr, 2023

Training and Evaluation of a Multilingual Tokenizer for GPT-SW3

Felix Stollenwerk

TL;DR本文介绍了用于 GPT-SW3 的多语言分词器，采用了 SentencePiece 库和 BPE 算法，在 Nordic Pile 上进行训练，重点介绍了分词器的特点和学习到的词汇表。此外，我们还系统地分析了不同语言在数据中的性质，并评估了分词器的性能。

Abstract

This paper provides a detailed discussion of the multilingual tokenizer used for gpt-sw3. It was trained on the nordic pile using the

发现论文，激发创造

你的分词器有多好？多语言语言模型在单语言性能上的表现

通过在九种语言和五种单语言任务的实验中对比预训练的多语言和单语言模型的表现来研究它们之间的差异，结果表明预训练数据规模和专门的单语言分词器对于下游性能同样重要，而对于具有多语言模型词汇表适当表示的语言的性能下降可以忽略不计。使用专门的单语言分词器可以提高几乎每个任务和语言的多语言模型的下游性能。

Dec, 2020

无需分词的多语言预训练模型的多维度评估

综合比较多语言预训练模型的效率时，在考虑内存使用、推理速度和数据健壮性等方面，基于子词的模型仍然是许多场景下更可靠的选择，此为当前研究结果，建议未来的tokenizer-free方法在设计和评估模型时也要考虑这些因素。

Oct, 2022

70种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了70种语言的大规模多语种ASR模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了13.9%-15.6%的平均WER改进，并展示了其泛化性和零样本学习能力在Multilingual Librispeech 上高达9.5%的WER表现。

Nov, 2022

对GPT-3在语法错误修正方面的性能分析

本文通过实验分析 GPT-3 文本模型在语法纠错任务（GEC）上的性能，比较了不同提示方式下的表现，使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。

Mar, 2023

增强自然语言处理的语义分词器

本研究提出了一种基于语义的新型分词器，使用词干来增强子词的形成，最小化未编码的单词数量，对接Trainer，实现了比SentencePiece分词器更高效的分词，并在BERT模型上实验，表明此方法可以将单词数量提高一倍以上，并显着提高NLP模型的收敛速度和单词及句子嵌入的质量，成绩排名Glue任务之前，比同等规模的模型优越50倍以上。

Apr, 2023

GPT-SW3：针对北欧语言的自回归语言模型

本篇论文介绍了第一个本地大型生成语言模型GPT-SW3的开发过程，包括数据收集和处理、训练配置和指令微调、评估以及发布策略的考虑，并希望该论文能为其他研究者在小语种的大型生成模型的开发提供指南和参考。

May, 2023

多语言语言建模中的分词影响：评估跨语言词汇分配和重叠

本文提出新的标准以评估子词符号化器中的词汇表示质量和词汇重叠度，并发现跨语言单词表的重叠实际上可能对某些下游任务（如POS、依赖树标记）产生负面影响，而在命名实体识别和句子级任务（如跨语言检索、NLI）中分享词汇表是有益的。此外，本文还观察到多语种语言模型中特定语言标记的覆盖范围显著影响单词级任务。因此，我们为未来的模型开发人员提供了详细的指导，以选择最适合他们特定应用程序的符号化器。

May, 2023

因式化子词编码的分词

本文提出一种新的标记方法，使用VQ-VAE模型将子词分解为离散三元组，结果表明所提出的Factorizer标记方法在语言建模和形态句法任务方面比常用的字节对编码（BPE）标记算法更为适合和稳健。

Jun, 2023

mBBC: 探索多语迷宫

多语言语言模型的综合评估：mBERT、XLM-R和GPT-3在具有不同语言环境的各种语言上的性能评估，发现资源可用性对模型性能有重要影响，并且资源可用性、语言家族和脚本类型之间存在复杂关系，为模型选择和部署提供了见解。

Oct, 2023

LLM培训的标记器选择：微不足道还是至关重要？

在大规模预训练语言模型（LLMs）中，我们进行了一项全面研究，探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现，分词器的选择可以显著影响模型的下游性能、训练和推理成本，并指出常用的分词器评估指标并不能准确预测模型性能，特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言LLMs时，仅采用英语分词器会导致严重的性能下降和高达68%的额外训练成本，因为其分词词汇表效率低下。

Oct, 2023