EMNLPOct, 2023

多语言表示的联合矩阵因式分析

TL;DR我们提出了一种基于联合矩阵分解的分析工具,用于比较多语言和单语言模型的潜在表示。我们使用这个工具,研究了多语言预训练模型学习的表示中在何种程度上和如何反映了形态句法特征。通过对 33 种语言和 17 种形态句法类别进行大规模实证研究,我们发现不同的形态句法信息在不同层次的编码中存在差异,这些差异受到语言属性的影响。对分解输出进行层次聚类得到了一棵树状结构,与由语言学家手工制作的系统发生关系的系统发生树。此外,我们发现分解输出与不同的跨语言任务中观察到的性能之间存在强关联。我们发布了我们的代码以促进未来的研究。