Oct, 2022

阿拉伯语 Transformer 模型的事后分析

TL;DR对在不同阿拉伯语方言上训练的 transformer 模型进行层与神经元分析,研究有趣的发现如下:①单词形态在较低和中间层次上学习,②句法依赖在较高层次上被捕获,③虽然 MSA 模型的词汇表与方言词汇表有很大重叠,但仍然无法捕捉阿拉伯语方言的微妙之处,④嵌入层的神经元是一词多义的,而中间层的神经元仅适用于特定属性。