May, 2022
同一神经元,不同语言:探究多语言预训练模型中的形态语法
Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models
Karolina Stańczak, Edoardo Ponti, Lucas Torroba Hennigen, Ryan Cotterell, Isabelle Augenstein
TL;DR该研究采用神经元级别探测器,在包括43种语言的14个形态句法类别上进行了大规模的实证研究,并发现了多语言预训练模型的跨语言重叠是显著的,但其范围可能因语言接近性和预培训数据的大小而异,支持其能够对语法进行语言通用的抽象。