Apr, 2022

神经机器翻译对多语言分词训练中的语言不平衡的鲁棒性有多强?

TL;DR本研究分析研究了多语言经过语言不平衡的训练语料库的分词器,并发现在训练过程中,UNK率和接近字符级别的特征对于下游任务的性能具有预警作用。同时,该研究还将分词器训练的语言采样与模型训练的采样区分开,并指出模型对后者更为敏感。