数据相似性无法充分解释语言模型的性能
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性,并在超过 30 个数据对上展示这些方法是好的预测器。结果表明,预训练的语言模型比预训练的词向量更有效,更可预测,但是预训练的词向量在预训练数据不相似时表现更好。
Apr, 2019
本篇论文重点研究了如何使用尽可能少的数据实现零 - shot 迁移学习,并探讨了语言相似度在该过程中的影响。研究人员利用两种低语言资源语言重新训练了四个基于 BERT 的模型的词汇层,同时对模型的源语言进行了独立的 POS 标记任务的微调。研究结果发现,通过将新的词汇层和微调后的 Transformer 层相结合,即使在仅有 10MB 的数据的情况下,也能显著提高两种目标语言任务的性能。值得注意的是,在目标语言被包含在多语言模型中时,单语 BERT-based 模型在重新训练词汇层后的下游任务表现要高于多语 BERT。
May, 2021
本文通过数学研究自回归语言模型预训练在下游任务中的应用,提出了将分类任务转化为句子填充任务的假设,证实表现好的语言模型可以是有意义的预训练任务,并给出了相应的数学形式化,同时通过分析认为语言模型可以有助于线性解决分类任务。
Oct, 2020
本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响,研究发现,在迁移学习中,拥有更多的数据通常会导致更好的性能,然而,相关语言在特定语言对的数据有限时也可以特别有效,最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明,相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能,同时还表明了相关语言在零样本和小样本时的重要性。
Jun, 2023
本研究根据预训练语言模型在联合语料库上进行分析,发现在一些情况下存在信息的利用,但在其他情况下,模型只是纯粹地记住了数据,但并没有利用学到的知识,这两种情况受到了多重因素的影响,如污染数据的数量和模型的大小,在区分语言理解和数据利用方面,对于大规模的互联网语料库的分析具有重要意义。
Mar, 2022
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
本文研究了预训练语言模型在领域任务泛化能力方面的能力,发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色,优于从头开始训练模型,并指出预训练嵌入在输入层非常重要。
Jun, 2023
本文通过研究发现,预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时,预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下,我们提出使用多任务学习(MTL)来提高泛化能力。我们在自然语言推断和释义识别上的实验表明,MTL 可显着提高在具有挑战性的情况下的性能,而不会影响分布内性能。此外,我们表明,MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。
Jul, 2020
通过对 LLMs 的 48 个数据集进行系统分析,我们测量了它们对 LLMs 的性能的影响,并研究了它们之间的相关关系,从而为更有效的 LLMs 预训练提供了洞见。
Feb, 2024