使用人工语言检验神经语言模型的归纳偏差
本研究通过对语言模型进行先验的结构性偏置,探索了不同感性学习偏差的影响,并研究了三种感性偏差的相对成功:1)递归,分层处理的感性偏差;2)无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差;和 3)一个 Zipfian 幂律词汇分布的感性偏差。我们发现,复杂的令牌 - 令牌交互形成了最好的感性偏向,并且在非上下文自由情况下最强。同时,我们还表明,独立于语法结构,Zipfian 词汇分布形成一个良好的感性偏向。
Apr, 2023
本研究旨在发现序列处理神经网络对于 “自然” 词序约束的偏见。结果表明,神经网络倾向于避免长距离依赖,但并没有明显的偏好于高效的,非冗余的信息编码。因此我们建议在神经网络中引入 “努力程度” 的概念,以使其语言行为更像人类。
May, 2019
在 1295 种语言的大规模多语言数据集中训练神经网络模型,以研究神经模型对于语言结构所能学习到的广义化程度,发现神经网络模型在语言结构的广义化方面的表现并不好,并会存在误报,但有些表现仍然与语言学中的传统特征非常接近,为了鼓励在这个领域的持续研究,我们发布了多个资源,包括语言表示的多重集合、多语言单词嵌入、映射和预测的语法和形态特征以及提供语言表征的具有语言学意义的评估软件。
Jan, 2023
一项关于基于 Transformer 的语言模型(如 BERT)的研究尝试使用语法归纳偏置来增强预训练过程,理论上通过将语法结构融入训练过程可以降低训练所需的数据量。但此类方法通常在高资源语言(如英语)上进行测试。在这项研究中,我们调查了这些方法是否可以弥补低资源语言中的数据稀疏性,研究假设它们在低资源语言中应该更加有效。我们对五种低资源语言进行了实验:维吾尔语、沃洛夫语、马耳他语、科普特语和古希腊语。我们发现这些语法归纳偏置方法在低资源环境中产生不均匀的结果,并在大多数情况下提供出乎意料的少量益处。
Nov, 2023
通过针对不同结构相关现象的四个实验,我们评估了 BERT 在原始数据的预训练过程中是否获得了形成结构化概括的归纳偏差,并发现 BERT 在实体 - 助动词倒装,反身代词,以及嵌套从句中动词时态检测中进行了结构化概括,但在 NPI 许可证检测中进行了线性概括,这是迄今为止最有力的支持从原始数据中获取结构性偏差的人工学习器研究结果之一。
Jul, 2020
研究了神经序列模型通过 typological properties 如词序和形态格标示来获取一种语言的语法的能力,针对这种种类繁多的语法特征和训练语料之间的复杂交互,作者使用了从英文中生成一些与英文在一个或多个语言学特性上不同的合成语言来避免影响,研究表明诸如 SVO 词序、多个格标示等特性可以有效提高合成语言的一致性效果。
Mar, 2019
本文探讨了神经语言模型学习语言现象(linguistic phenomena)的路径(learning trajectories),发现不同的模型尽管最终性能不同,但其学习习惯(inductive bias)相似,且在不同的学习阶段表现出相似的 “成长” 阶段,研究这些阶段可以帮助了解神经语言模型中的语言表示(linguistic representation)。
Sep, 2021