从声音到语法：探究口语语言模型的句法

May, 2023

从声音到语法：探究口语语言模型的句法

Wave to Syntax: Probing spoken language models for syntax

Gaofei Shen, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupała

TL;DR研究了自我监督和视觉基础的多个口语模型对句法的编码方式，证明句法结构被最明显地捕获在中间层，并在参数较多的模型中表现得更加明显。

Abstract

Understanding which information is encoded in deep models of spoken and written language has been the focus of much research in recent years, as it is crucial for debugging and improving these architectures. Most

deep models spoken language written language syntax self-supervised

发现论文，激发创造

语法何时在神经语言模型性能中发挥作用？来自 Dropout 探针的证据

语言模型中使用的语法信息可能存在多余编码，通过一种新的探针设计，可准确引导探针考虑嵌入中的所有语法信息，揭示语法在当前方法未能探测到的模型中的有效性，进而通过注入语法信息提高模型性能。

Apr, 2022

解码探究：利用最小对比揭示神经语言模型中的内部语言结构

受认知神经学研究的启发，我们介绍了一种新颖的 “解码探测” 方法，利用最小对比基准（BLiMP）逐层探测神经语言模型中的内在语言特征。通过将语言模型视为 “大脑”，其表示为 “神经激活”，我们从中间层的表示中解码最小对比的语法标签。该方法揭示了：1）自监督语言模型在中间层捕捉到了 GloVe 和 RNN 语言模型无法学习到的抽象语言结构。2）句法语法性的信息在 GPT-2 的最初三层中得到了鲁棒地捕捉，且在后续层中也分布广泛。随着句子复杂度的增加，需要更多的层来学习语法能力。3）比起语法，形态和语义 / 句法接口相关特征更难捕捉。4）对于基于 Transformer 的模型，嵌入和注意力机制都捕捉到了语法特征，但显示出不同的模式。不同的注意力头对于不同的语言现象展现出类似的倾向，但贡献有所不同。

Mar, 2024

薛定谔树 -- 论语法与神经语言模型

本文回顾了近年来自然语言处理领域的语言模型的发展，并探讨在研究语言模型中基于句法的研究中存在的问题以及解决方案，旨在为未来语言模型的研究提供一种较为多样化和立体化的研究视角。

Oct, 2021

光谱探测

通过开发可完全学习的频率过滤器，我们可以在不同层次和频率上捕捉语言信息。在单语言环境下，我们证明了频谱探测比手工滤波器具有更高的信息量，并在六种语言中的七个 NLP 任务中进行了多语言分析。这些分析鉴定了独特的频谱轮廓，是一种语言直观的方法，而且跨语言是一致的，并展示了其作为强大而轻量级任务描述符的潜力。

Oct, 2022

探针与解析器的故事

本研究对比了一个新型结构探针和传统解析器，发现两种方法在不同语言上效果并存，提出了关于使用哪种技术的问题。

May, 2020

AST-Probe：从预训练语言模型的隐藏表示中恢复抽象语法树

本篇论文通过构建 AST-Probe 探针方法，证明了预训练语言模型中存在一个语法子空间以及该子空间可以用来恢复一个输入代码片段的完整 AST，进而表明预训练语言模型仅使用一部分表示空间来编码编程语言的语法信息。

Jun, 2022

语言表征在视觉语音信号模型中的应用

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

BERT 对韵律学习了什么？

本研究采用了一系列实验，探究了 BERT 模型在不同层次上的语言表征，结果显示它主要依赖句法和语义信息来捕捉音调重音的相关信息。

Apr, 2023

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020