用人工语言进行预训练：研究语言模型可迁移的知识

ACLMar, 2022

用人工语言进行预训练：研究语言模型可迁移的知识

Pretraining with Artificial Language: Studying Transferable Knowledge in Language Models

Ryokan Ri, Yoshimasa Tsuruoka

TL;DR通过在人工语言上预训练编码器并探究其在自然语言处理中的表现，研究神经网络编码器中可迁移的结构知识，发现嵌套依赖结构的人工语言的预训练可以提供一些可迁移的知识，并且转移的成功与编码器中编码的上下文信息量相关，转移的是语言上下文依赖的位置感知知识。

Abstract

We investigate what kind of structural knowledge learned in neural network encoders is transferable to processing natural language. We design artificial languages with structural properties that mimic

neural network natural language pretraining artificial language contextual information

发现论文，激发创造

只预训结构：利用迁移学习理解语言归纳偏差

本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Apr, 2023

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

学习音乐有助于阅读：利用迁移研究语言模型中的语言结构

本文提出了迁移学习作为一种分析神经语言模型中语法结构编码的方法，并发现训练模型在具有潜在结构的非语言数据上，如 MIDI 音乐或 Java 代码，可以提高模型在自然语言上的测试性能。作者还通过实验发现，在人工括号语言数据的训练中，模型对于层级递归结构的学习也有助于提高在自然语言测试上的性能，并且迁移学习的性能与语言类型的句法相似性密切相关，说明模型的预训练是具有学科跨越性质的。

Apr, 2020

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

DeepStruct: 为结构预测预训练语言模型

介绍了一种提高语言模型结构理解能力的方法，它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式，并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。

May, 2022

语言知识可以增强编码器 - 解码器模型（如果你愿意）

本文探讨了将预训练的编码 - 解码模型（特别是 T5）与语言知识相结合用于预测目标任务时的影响。我们研究了在预测句子的结构语言属性的中间任务上微调 T5 模型是否会改变其在预测句子级复杂性目标任务上的性能。我们的研究包括在意大利语和英语数据集上进行的各种实验，使用了单语和多语 T5 模型以及不同尺寸的模型。无论是在两种语言还是在跨语言配置中，结果表明，从语言学角度出发的中间微调通常对目标任务的性能有积极影响，特别是在模型较小且数据有限的情况下。

Feb, 2024

探究预训练语言模型中的语言信息以进行逻辑推理

本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象，发现预训练语言模型对于一些推理所需要的语言信息进行了编码，同时也发现了有一些信息的编码比较弱，但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。

Dec, 2021

人工神经网络对人类语言习得的启示

通过使用机器学习及自然语言处理技术，研究语言习得过程，探讨如何让模型学习在有限的语言输入下获取语言知识，以验证关于人类语言学习本质的假说。

Aug, 2022

语言模型教给你的句法知识比翻译多：通过辅助任务分析所学到的教训

该研究比较了四种不同的预训练目标（语言模型、翻译、跳跃思考和自编码）对模型学习语言信息和句法信息的影响，结果表明语言模型对于转移学习和需要句法信息的应用最为适合。

Sep, 2018

迁移学习对深度自然语言处理模型中语言知识的影响？

本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

May, 2021