自我引导的数据重新加权用于语言模型预训练

EMNLPNov, 2023

自我引导的数据重新加权用于语言模型预训练

Self-Influence Guided Data Reweighting for Language Model Pre-training

Megh Thakkar, Tolga Bolukbasi, Sriram Ganapathy, Shikhar Vashishth, Sarath Chandar...

TL;DR我们提出了 PRESENCE 方法，通过利用自我影响（SI）得分作为样本重要性和预训练的指标来共同重新加权样本，从而促进模型预训练的新颖性和稳定性，填补了在预训练语言模型中采用模型驱动的样本重新加权的重要领域的空白。

Abstract

language models (LMs) pre-trained with self-supervision on large text corpora have become the default starting point for developing models for various NLP tasks. Once the pre-training corpus has been assembled, a

language models pre-training data reweighting self-influence scores sample importance

发现论文，激发创造

高效语言数据抽样的规模化影响分数

应用影响力分数评估语言分类任务，通过修剪训练数据来量化准确性变化，并提供基于分数采样的建议，以提高准确性和训练效率。

Nov, 2023

有影响力的子集选择用于语言模型的告别漫无目的的大规模预训练

本文提出了一种基于 Influence Subset Selection（ISS）的方法，利用端到端任务知识选择一个较小的语言模型预训练语料库子集，并以较低的计算成本获得与 RoBERTa 等大型预训练模型相媲美的性能。

May, 2023

通过重要性重采样进行语言模型数据选择

本文介绍了一种基于重要性重采样的数据选择算法，该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域（例如维基百科）和特定领域的语言模型时，该算法能够显着提高模型的性能。

Feb, 2023

使用弱监督微调预训练语言模型：一种对比正则自训练方法

该研究通过开发一种对比自训练框架 (COSINE) 来解决使用弱监督 fine-tune 预训练语言模型 (LMs) 时的过拟合问题，实验证明该方法在自然语言处理的多个任务中表现优异。

Oct, 2020

让每个样本都有价值：自我影响在学习嘈杂自然语言处理数据中的稳定性与效用

本文研究使用任务不可知的自我影响分数对训练数据进行清洗的有效性，通过分析其在捕捉自然异常值方面的功效来调查自我影响数据清洗对机器翻译、问答和文本分类等任务的改进程度，利用自我影响计算的最新方法和自动课程学习作为基础。

Feb, 2023

样本重加权的稳健学习

本文研究如何在模型错配偏差情况下学习线性预测模型。我们提出了一种样本重新加权方法，该方法可以减少输入变量之间的共线性，从而提高设计矩阵的条件，并与任何标准学习方法相结合，用于参数估计和特征选择，进而提高模型在不同分布数据集下的稳定性。

Nov, 2019

抓住机遇：硬样本重新加权的连续训练提高 LLM 的推广能力

使用实例重新加权的分布鲁棒优化方法在大型语言模型的持续训练中有效地优化了样本保留，提高了语言模型的性能。

Feb, 2024

半监督学习中数据赋权：未标注数据的不同重要性

本文研究如何通过基于影响函数的算法来为不同的未标记样本赋予不同的权重，提出一种快速有效的影响函数逼近技术，该技术在半监督图像和语言分类任务上表现优于最先进的方法。

Jul, 2020

无头语言模型：基于对比加权连接的无预测学习

自监督预训练语言模型通常通过对广泛的词汇表进行概率分布预测。在本研究中，我们提出了一种创新的方法，通过对比权重绑定（CWT）以对比的方式重构输入嵌入，从而摆脱了概率预测。我们将该方法应用于单语和多语境下预训练无头语言模型。我们的方法在减少训练计算需求高达 20 倍的同时，同时提高了下游性能和数据效率。与相似计算预算的传统语言模型相比，我们观察到显著的 + 1.6 GLUE 分数增加和显著的 + 2.7 LAMBADA 准确性提升。

Sep, 2023

有监督的声学嵌入及其在不同语言之间的可转移性

本文研究了使用自监督预训练技术来提高语音识别的准确性，发现在监督学习框架中，利用不同的预训练自监督特征作为 Acoustic Word Embeddings 的输入是最有效的方法，并且这种方法可实现跨语言迁移。

Jan, 2023