May, 2024

探索深度神经网络如何学习语言结构的理论

TL;DR通过下一个词预测需要多少数据来学习语言的结构?我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究,该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性,并显示它们可以用来构建文法的隐藏变量表示,范围越长,变量越深。此外,有限的训练集限制了相关性的分辨率,其有效范围的大小随训练集的增大而增加。因此,使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示,从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集,而且适用于其他数据集。特别是,我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系,我们通过莎士比亚剧作中的一系列台词进行了实证验证。