用人工语言进行预训练:研究语言模型可迁移的知识
本研究通过对语言模型进行先验的结构性偏置,探索了不同感性学习偏差的影响,并研究了三种感性偏差的相对成功:1)递归,分层处理的感性偏差;2)无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差;和 3)一个 Zipfian 幂律词汇分布的感性偏差。我们发现,复杂的令牌 - 令牌交互形成了最好的感性偏向,并且在非上下文自由情况下最强。同时,我们还表明,独立于语法结构,Zipfian 词汇分布形成一个良好的感性偏向。
Apr, 2023
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本文提出了迁移学习作为一种分析神经语言模型中语法结构编码的方法,并发现训练模型在具有潜在结构的非语言数据上,如 MIDI 音乐或 Java 代码,可以提高模型在自然语言上的测试性能。作者还通过实验发现,在人工括号语言数据的训练中,模型对于层级递归结构的学习也有助于提高在自然语言测试上的性能,并且迁移学习的性能与语言类型的句法相似性密切相关,说明模型的预训练是具有学科跨越性质的。
Apr, 2020
该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明,虽然这些表示在许多任务中表现出色,但对于需要细粒度语言知识的任务(如连词识别)而言,它们还不能胜任。此外,作者还比较了不同预训练和监督预训练方法对于任务训练的影响。
Mar, 2019
介绍了一种提高语言模型结构理解能力的方法,它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式,并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。
May, 2022
本文探讨了将预训练的编码 - 解码模型(特别是 T5)与语言知识相结合用于预测目标任务时的影响。我们研究了在预测句子的结构语言属性的中间任务上微调 T5 模型是否会改变其在预测句子级复杂性目标任务上的性能。我们的研究包括在意大利语和英语数据集上进行的各种实验,使用了单语和多语 T5 模型以及不同尺寸的模型。无论是在两种语言还是在跨语言配置中,结果表明,从语言学角度出发的中间微调通常对目标任务的性能有积极影响,特别是在模型较小且数据有限的情况下。
Feb, 2024
本文提出了一种方法来探测在预训练语言模型中进行逻辑推理需要的语言现象,发现预训练语言模型对于一些推理所需要的语言信息进行了编码,同时也发现了有一些信息的编码比较弱,但是预训练语言模型通过微调能够有效地学习到缺失的语言信息。这些结果为语言模型作为支持符号推理方法的语义和背景知识库的潜力提供了有价值的见解。
Dec, 2021
该研究比较了四种不同的预训练目标(语言模型、翻译、跳跃思考和自编码)对模型学习语言信息和句法信息的影响,结果表明语言模型对于转移学习和需要句法信息的应用最为适合。
Sep, 2018
本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现,并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式,发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式,这种模式在三个模型中都有所不同。
May, 2021