数据相似性无法充分解释语言模型的性能

Nov, 2023

数据相似性无法充分解释语言模型的性能

Data Similarity is Not Enough to Explain Language Model Performance

Gregory Yauney, Emily Reif, David Mimno

TL;DR大型语言模型的性能在许多下游任务上都很高，但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较，测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现，在其他基准测试中，相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。

Abstract

large language models achieve high performance on many but not all downstream tasks. The interaction between pretraining data and task data

large language models pretraining data task data similarity measures downstream tasks

发现论文，激发创造

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

使用相似度度量选择 NER 的预训练数据

本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性，并在超过 30 个数据对上展示这些方法是好的预测器。结果表明，预训练的语言模型比预训练的词向量更有效，更可预测，但是预训练的词向量在预训练数据不相似时表现更好。

Apr, 2019

在语言相似度高的情况下适应单语模型：数据匮乏的问题

本篇论文重点研究了如何使用尽可能少的数据实现零 - shot 迁移学习，并探讨了语言相似度在该过程中的影响。研究人员利用两种低语言资源语言重新训练了四个基于 BERT 的模型的词汇层，同时对模型的源语言进行了独立的 POS 标记任务的微调。研究结果发现，通过将新的词汇层和微调后的 Transformer 层相结合，即使在仅有 10MB 的数据的情况下，也能显著提高两种目标语言任务的性能。值得注意的是，在目标语言被包含在多语言模型中时，单语 BERT-based 模型在重新训练词汇层后的下游任务表现要高于多语 BERT。

May, 2021

语言模型如何帮助解决下游任务的数学探索

本文通过数学研究自回归语言模型预训练在下游任务中的应用，提出了将分类任务转化为句子填充任务的假设，证实表现好的语言模型可以是有意义的预训练任务，并给出了相应的数学形式化，同时通过分析认为语言模型可以有助于线性解决分类任务。

Oct, 2020

利用迁移学习改进波兰语到英语神经机器翻译：数据量和语言相似性的影响

本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响，研究发现，在迁移学习中，拥有更多的数据通常会导致更好的性能，然而，相关语言在特定语言对的数据有限时也可以特别有效，最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明，相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能，同时还表明了相关语言在零样本和小样本时的重要性。

Jun, 2023

数据污染：从记忆到利用

本研究根据预训练语言模型在联合语料库上进行分析，发现在一些情况下存在信息的利用，但在其他情况下，模型只是纯粹地记住了数据，但并没有利用学到的知识，这两种情况受到了多重因素的影响，如污染数据的数量和模型的大小，在区分语言理解和数据利用方面，对于大规模的互联网语料库的分析具有重要意义。

Mar, 2022

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

研究预训练语言模型在跨领域数据集上，更接近通用人工智能的一步

本文研究了预训练语言模型在领域任务泛化能力方面的能力，发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色，优于从头开始训练模型，并指出预训练嵌入在输入层非常重要。

Jun, 2023

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020

通过机器学习去除预训练数据对大型语言模型的影响解析

通过对 LLMs 的 48 个数据集进行系统分析，我们测量了它们对 LLMs 的性能的影响，并研究了它们之间的相关关系，从而为更有效的 LLMs 预训练提供了洞见。

Feb, 2024