Apr, 2023

如何通过操作分词来提高跨语言转移能力?对非规范化语言进行词性标注研究

TL;DR研究 finetuning 预训练语言模型(PLMs)的挑战在于当在未预先训练的数据中出现前所未见的语言变化时,它们的分词器可能变得脆弱,导致在性能上下降,提出了一种在七种语言上用不同的方式衡量的调整标记方法,结果表明源数据和目标数据中单词拆分的比例差异(拆分单词比差异)是目标数据上模型表现的最强预测因素。