只预训结构：利用迁移学习理解语言归纳偏差

Apr, 2023

只预训结构：利用迁移学习理解语言归纳偏差

Pretrain on just structure: Understanding linguistic inductive biases using transfer learning

Isabel Papadimitriou, Dan Jurafsky

TL;DR本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Abstract

Both humans and transformer language models are able to learn language without explicit structural supervision. What inductive learning biases make this learning possible? In this study, we examine the effect of

inductive learning biases language models zipfian vocabulary distribution token-token interactions grammar

发现论文，激发创造

神经网络是否可以从原始语言数据中获得结构偏见？

通过针对不同结构相关现象的四个实验，我们评估了 BERT 在原始数据的预训练过程中是否获得了形成结构化概括的归纳偏差，并发现 BERT 在实体 - 助动词倒装，反身代词，以及嵌套从句中动词时态检测中进行了结构化概括，但在 NPI 许可证检测中进行了线性概括，这是迄今为止最有力的支持从原始数据中获取结构性偏差的人工学习器研究结果之一。

Jul, 2020

提高变形金刚在形态丰富语言翻译中的结构偏差

本论文旨在探讨如何通过加入结构偏置来提高 Transformer 的翻译能力，并且通过 TP-Transformer 和形态结构的分割两种方式来实现。实验表明，这两种方法都能使 Transformer 在翻译土耳其语和伊努伊特语等形态丰富的语言时表现更好，但要考虑数据集的大小。总的来说，结构编码方法可以使 Transformer 更加高效，在少量数据的情况下表现更好。

Aug, 2022

使用人工语言检验神经语言模型的归纳偏差

该研究提出了一种新颖的方法，使用人造语言验证语言模型的归纳偏见，并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。

Jun, 2021

Transformer 语言模型的结构指导

本论文研究了在不需要大量预训练的情况下，以结构为导向的指导是否能够使 Transformer 语言模型学习更接近人类的系统语言泛化。通过在 BLLIP 数据集上对两种新模型进行实验，研究者发现引入结构性解析的辅助训练能够提高 Transformer 语言模型在句法推理上的泛化能力。

Jul, 2021

无需种植树木的语法学习：理解变换器何时以及何种方式实现分层普遍化

透过对自然语言数据训练的 Transformer 模型的研究和实验证明，具备语言建模目标的 Transformer 模型更容易学习和推广层次结构，并在处理无法预见的句法结构的句子时表现优异。

Apr, 2024

深度学习方法的句法归纳偏置

我们在本文中介绍了两种归纳偏差方法，分别针对语法结构和依赖关系，实现了深度学习模型的归纳偏差，并通过这些方法建立了深度学习模型的潜在分层表示，使模型能够处理复杂的序列结构并在语言处理任务中取得了优秀的效果。

Jun, 2022

用人工语言进行预训练：研究语言模型可迁移的知识

通过在人工语言上预训练编码器并探究其在自然语言处理中的表现，研究神经网络编码器中可迁移的结构知识，发现嵌套依赖结构的人工语言的预训练可以提供一些可迁移的知识，并且转移的成功与编码器中编码的上下文信息量相关，转移的是语言上下文依赖的位置感知知识。

Mar, 2022

语言模型中如何种植树木：数据和架构对句法归纳偏差发生的影响

本文研究了预训练模型在通用语言中层次化句法功能的作用，通过诊断语法转换任务来诊断预训练参数的归纳偏差，结果表明，模型深度对于层次化泛化具有更大的作用，同时，在训练规模方面，使用适当的语料库预训练可以提高效率。

May, 2023

Transformer 语言模型中的句法归纳偏置：对低资源语言特别有帮助吗？

一项关于基于 Transformer 的语言模型（如 BERT）的研究尝试使用语法归纳偏置来增强预训练过程，理论上通过将语法结构融入训练过程可以降低训练所需的数据量。但此类方法通常在高资源语言（如英语）上进行测试。在这项研究中，我们调查了这些方法是否可以弥补低资源语言中的数据稀疏性，研究假设它们在低资源语言中应该更加有效。我们对五种低资源语言进行了实验：维吾尔语、沃洛夫语、马耳他语、科普特语和古希腊语。我们发现这些语法归纳偏置方法在低资源环境中产生不均匀的结果，并在大多数情况下提供出乎意料的少量益处。

Nov, 2023

DeepStruct: 为结构预测预训练语言模型

介绍了一种提高语言模型结构理解能力的方法，它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式，并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。

May, 2022