Apr, 2023

GPT-SW3多语言分词器的训练和评估

TL;DR本文介绍了用于 GPT-SW3 的多语言分词器,采用了 SentencePiece 库和 BPE 算法,在 Nordic Pile 上进行训练,重点介绍了分词器的特点和学习到的词汇表。此外,我们还系统地分析了不同语言在数据中的性质,并评估了分词器的性能。