Apr, 2022
神经机器翻译对多语言分词训练中的语言不平衡的鲁棒性有多强?
How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training?
TL;DR本研究分析研究了多语言经过语言不平衡的训练语料库的分词器,并发现在训练过程中,UNK率和接近字符级别的特征对于下游任务的性能具有预警作用。同时,该研究还将分词器训练的语言采样与模型训练的采样区分开,并指出模型对后者更为敏感。