学习哪些特征重要：RoBERTa 最终掌握语言一般性

EMNLPOct, 2020

学习哪些特征重要：RoBERTa 最终掌握语言一般性

Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually)

Alex Warstadt, Yian Zhang, Haau-Sing Li, Haokun Liu, Samuel R. Bowman

TL;DR这篇研究介绍了一种新的英文诊断集合 MSGs，通过测试预训练模型在微调时是否更偏向于使用语言特征而非表层泛化。研究发现，模型可以在很少的预训练数据情况下学会语言特征，但需要更多数据来学习偏向于使用语言泛化。最终，经过约 30B 个单词的预训练数据，RoBERTa-base 表现出了语言偏差，但我们认为自我监督预训练是学习有用的归纳偏差的有效方法，但是需要改善模型学习哪些特征重要的速度。

Abstract

One reason pretraining on self-supervised linguistic tasks is effective is that it teaches models features that are helpful for language understanding. However, we want pretrained models to learn not only to repr

pretraining self-supervised linguistic features fine-tuning inductive biases

发现论文，激发创造

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

强化学习微调语言模型对更可提取特征有偏向性

通过控制实验，我们发现大型语言模型在自我监督预训练和强化学习微调阶段对于特征提取的归纳偏好在一定程度上一致，并且这些偏好与特征的利用程度和重要性具有显著相关性。

Nov, 2023

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020

神经网络是否可以从原始语言数据中获得结构偏见？

通过针对不同结构相关现象的四个实验，我们评估了 BERT 在原始数据的预训练过程中是否获得了形成结构化概括的归纳偏差，并发现 BERT 在实体 - 助动词倒装，反身代词，以及嵌套从句中动词时态检测中进行了结构化概括，但在 NPI 许可证检测中进行了线性概括，这是迄今为止最有力的支持从原始数据中获取结构性偏差的人工学习器研究结果之一。

Jul, 2020

大型语言模型除语言外还能学到什么？

本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对 19 个多样化的非语言任务进行试验，包括量化计算、识别正则表达式和对字符串的推理，我们发现预先训练的模型明显优于可比较的非预先训练的神经模型，即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时，我们进一步探讨了不同文本领域对用户体验的影响，并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下，也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。

Oct, 2022

BERT 之后：其他木偶对语言的理解

利用 oLMpics 基准和心理语言学探测数据集，我们对包括 T5、BART 和 ALBERT 在内的 29 个模型进行了多样化的分析。结果表明，这些模型都无法以零样本的方式解决组成性问题，并且全局模型决策也不能预测模型的语言能力。

May, 2022

是否预训练：探究在资源丰富任务中预训练的益处

本文研究预训练自然语言处理模型在下游任务中使用的训练样本数量与性能之间的关系，研究发现，随着训练样本的数量达到百万级别，使用 BERT 预训练模型和从头开始训练的 LSTM 模型之间的准确度差距缩小到不到 1％，暗示随着监督数据规模的增大，MLM 模型可能会达到递减的收益点。

Jun, 2020

预训练目标如何影响大型语言模型在语言属性方面的学习？

本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响，通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练，并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小，这也对语言信息熵理论的主流观点提出了疑问。

Mar, 2022

迁移学习对深度自然语言处理模型中语言知识的影响？

本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

May, 2021