Jan, 2023

语言嵌入有时包含类型学概括

TL;DR在 1295 种语言的大规模多语言数据集中训练神经网络模型,以研究神经模型对于语言结构所能学习到的广义化程度,发现神经网络模型在语言结构的广义化方面的表现并不好,并会存在误报,但有些表现仍然与语言学中的传统特征非常接近,为了鼓励在这个领域的持续研究,我们发布了多个资源,包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。