更大的预训练语言模型是否总体表现更好？在实例级别上进行比较

ACLMay, 2021

更大的预训练语言模型是否总体表现更好？在实例级别上进行比较

Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level

Ruiqi Zhong, Dhruba Ghosh, Dan Klein, Jacob Steinhardt

TL;DR比较不同规模的语言模型在不同实例上的表现，发现 BERT-Large 在一定比例上比 BERT-Mini 表现差。建议研究人员结合模型预测来分析模型表现。

Abstract

Larger language models have higher accuracy on average, but are they better on every single instance (datapoint)? Some work suggests larger models have higher out-of-distribution robustness, while other work sugg

language models model size out-of-distribution robustness individual instances model predictions

发现论文，激发创造

相似性能下的 BERT 模型泛化能力差异大

本研究研究了同一神经网络架构在同一数据集上多次训练后是否在不同运行中进行相似的语言概括，通过在 Multi-genre 自然语言推理（MNLI）数据集上微调 100 个 BERT 实例并在评估自然语言推理中的句法概括的 HANS 数据集上对它们进行了评估，这类变异很可能是由于在局部极小值处的神经网络中出现的损失函数梯度等的不同选择而存在的，而减少变异可能需要具有更强归纳偏差的模型。

Nov, 2019

ScholarBERT: 大不见得更好

本文研究了 14 个基于 transformer 的模型在 11 个科学任务上的表现，并创建了迄今最大、最多样化的科学语言模型 ScholarBERT。然而，在模型大小和训练数据等方面存在重大差异的情况下，我们发现这些模型在这些科学任务上的表现几乎没有差异，这一结果为基于 BERT 架构在科学领域任务中的表现建立了一个上限。

May, 2022

领域特定预训练模型的重要性：相较通用模型而言

研究表明，对面向单一领域的数据进行预训练，也可以得到性能强大且经济实惠的替代解决方案，本文以 StackOverflow 为例，使用 SOBertBase 和 SOBertLarge 模型在该领域上预训练，并在 SO 特定的四个下游任务上验证了其表现优于基线和大型通用模型。

Jun, 2023

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

LIMIT: 指令调整跨评估范式中的越少越好

通过对小规模多样化的 fine-tune 样本进行研究，本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能，并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。

Nov, 2023

面向多语言掩码语言建模的大规模 Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为 3.5B 和 10.7B 的大型多语言掩码语言模型，这两个新模型分别称为 XLM-R XL 和 XLM-R XXL，在 XNLI 中的平均准确率比 XLM-R 高 1.8％和 2.4％，同时处理了 99 种以上的语言，优于 RoBERTa-Large 模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020

大型语言模型能力的可预测性研究 —— 以 BIG-bench 为例

研究了大型语言模型预测能力的可预测性问题并在 BIG-bench 实验记录上进行了实证研究，发现大型语言模型的性能可以以 5% 以下的 RMSE 进行准确预测，并提出了寻找一个信息性子集用于评估新模型家族的问题，整合了 BIG-bench Hard 的信息，并将规模缩小了三倍。

May, 2023

语言模型差分隐私微调

本篇研究提供了更简单、更稀疏、更快速的算法来实现大规模预训练语言模型的差分隐私微调，在许多标准 NLP 任务上实现了最先进的隐私与实用性平衡。我们提出了一个元框架来解决这个问题，并在该领域中取得了最好的实用效果、隐私性、私有训练的计算和存储成本。

Oct, 2021