Jan, 2022

解释阿拉伯语 Transformer 模型

TL;DR本研究探究了基于不同阿拉伯语言方言预训练模型的内部表示,并使用三种内在任务对这些模型进行了层和神经元分析,包括两种基于 MSA 的形态标注任务和一种方言识别任务。研究发现,单词形态是在较低和中间层中学习的;方言识别需要更多的知识,因此即使在最终层中也需要保留;尽管词汇有很大的重叠,基于 MSA 的模型无法捕捉阿拉伯语方言的细微差别,而嵌入层中的神经元是多义的,而中间层中的神经元则专门用于特定的属性。