ACLJan, 2021

使用自训练预训练语言模型进行零样本和少样本多方言阿拉伯序列标注

TL;DR本研究提出在零或少量标注数据的情况下,通过自训练预训练语言模型,利用数据丰富的语言资源,提高数据匮乏语言变种的性能,以阿拉伯语序列标注为例,利用仅在现代标准阿拉伯语上微调的语言模型,预测多个方言阿拉伯语的命名实体和词性标注,表明自训练是有效的,并能在极少的标注数据下获得更好的效果。