从声音到语法:探究口语语言模型的句法
语言模型中使用的语法信息可能存在多余编码,通过一种新的探针设计,可准确引导探针考虑嵌入中的所有语法信息,揭示语法在当前方法未能探测到的模型中的有效性,进而通过注入语法信息提高模型性能。
Apr, 2022
受认知神经学研究的启发,我们介绍了一种新颖的 “解码探测” 方法,利用最小对比基准(BLiMP)逐层探测神经语言模型中的内在语言特征。通过将语言模型视为 “大脑”,其表示为 “神经激活”,我们从中间层的表示中解码最小对比的语法标签。该方法揭示了:1)自监督语言模型在中间层捕捉到了 GloVe 和 RNN 语言模型无法学习到的抽象语言结构。2)句法语法性的信息在 GPT-2 的最初三层中得到了鲁棒地捕捉,且在后续层中也分布广泛。随着句子复杂度的增加,需要更多的层来学习语法能力。3)比起语法,形态和语义 / 句法接口相关特征更难捕捉。4)对于基于 Transformer 的模型,嵌入和注意力机制都捕捉到了语法特征,但显示出不同的模式。不同的注意力头对于不同的语言现象展现出类似的倾向,但贡献有所不同。
Mar, 2024
本文回顾了近年来自然语言处理领域的语言模型的发展,并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案,旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。
Oct, 2021
通过开发可完全学习的频率过滤器,我们可以在不同层次和频率上捕捉语言信息。在单语言环境下,我们证明了频谱探测比手工滤波器具有更高的信息量,并在六种语言中的七个 NLP 任务中进行了多语言分析。这些分析鉴定了独特的频谱轮廓,是一种语言直观的方法,而且跨语言是一致的,并展示了其作为强大而轻量级任务描述符的潜力。
Oct, 2022
本篇论文通过构建 AST-Probe 探针方法,证明了预训练语言模型中存在一个语法子空间以及该子空间可以用来恢复一个输入代码片段的完整 AST,进而表明预训练语言模型仅使用一部分表示空间来编码编程语言的语法信息。
Jun, 2022
基于视觉基础的言语知觉模型,使用多层循环高速公路网络对时间性建模,能够从输入信号中提取形式和基于含义的语言学知识,并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中,语义方面的编码越来越丰富,而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。
Feb, 2017
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度,即探针,发现在评估中应选择表现最好的模型,即使它是更复杂的模型,以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
Apr, 2020