Nov, 2022

为新语言扩展多语预训练模型的子词模型

TL;DR本文研究通过添加新的 Subwords 到 SentencePiece tokenizer 来扩展多语言预训练模型到新语言 (Inuktitut) 并应用于英文到 Inuktitut 翻译。