抓住机遇：硬样本重新加权的连续训练提高 LLM 的推广能力

Feb, 2024

抓住机遇：硬样本重新加权的连续训练提高 LLM 的推广能力

Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization

Xuxi Chen, Zhendong Wang, Daouda Sow, Junjie Yang, Tianlong Chen...

TL;DR使用实例重新加权的分布鲁棒优化方法在大型语言模型的持续训练中有效地优化了样本保留，提高了语言模型的性能。

Abstract

In the rapidly advancing arena of large language models (LLMs), a key challenge is to enhance their capabilities amid a looming shortage of high-quality training data. Our study starts from an empirical strategy for the light →

large language models continual training sample retention instance-reweighted distributionally robust optimization performance improvement

发现论文，激发创造

通过在难样本上进行元学习以提高泛化能力

学习重加权（LRW）方法用优化准则分配训练实例权重，以在代表性验证数据集上最大化性能。我们提出并形式化了在 LRW 训练中优化选择验证集的问题，以提高分类器的泛化能力。使用难以分类的实例作为验证集，在理论上与实证的有效性存在强烈的关联。我们提供了一种有效的算法来训练这种元优化模型，并提出了一种简单的两次训练启发式方法进行比较研究。我们证明相对于易用验证数据的 LRW，具有难度验证数据的 LRW 表现一致更差，从而验证了我们元优化问题的有效性。我们的算法在一系列数据集和域偏移挑战（Imagenet-1K，CIFAR-100，Clothing-1M，CAMELYON，WILDS 等）上优于广泛的基线，通过在 Imagenet 上使用 VIT-B 获得了约 1％的增益。我们还展示了在 LRW 的训练中使用自然难的示例（Imagenet-R/Imagenet-A）能够在干净和自然难的测试实例上分别提高 1-2％的性能。次要分析显示，在 LRW 框架中使用难度验证数据可以提高测试数据的边界，暗示了我们实证增益背后的机制。我们认为这项工作为监督学习环境中元学习的元优化开辟了新的研究方向。

Mar, 2024

简单且可扩展的策略，用于持续预训练大型语言模型

大型语言模型的持续学习策略可以通过简单且可扩展的方法成功更新模型，同时只需使用一小部分计算资源来达到重新训练的效果。

Mar, 2024

模型无关样本重新加权用于数据集外学习

提出一种方法（MAPLE），通过样本重新加权，处理机器学习模型的过度拟合问题，特别针对过度参数化的情况，从而有效提高模型的超出分布的泛化能力。

Jan, 2023

双重稳健实例重新加权对抗训练

提出一种新型的双重鲁棒性实例重新加权的对抗训练 (AT) 框架，通过探索分布鲁棒优化技术获得重要性权重，并在最脆弱的示例上提高鲁棒性。

Aug, 2023

通用重新加权为何不优于 ERM

本文介绍了一种名为广义重加权算法（GRW）的类别，它通过迭代地重新加权训练样本来更新模型参数。我们发现在采用 GRW 算法的过拟合模型下，所得到的模型与采用 Empirical risk minimization 得到的模型非常相似。此外，在 GRW 算法不使用小规则化方法的情况下，得到的结果也是不尽如人意的，我们需要更多的探索与研究。

Jan, 2022

如何培训数据高效的 LLMs

通过数据的有效利用，我们研究了大型语言模型的训练，提出了基于数据选择的技术并优化了模型质量和训练资源的消耗。我们的方法能在最大程度上提高覆盖率和多样性，同时以高效的方式训练模型。

Feb, 2024

多任务学习中基于样本重新加权的机器阅读理解

本研究提出了一种多任务学习框架，用于学习一个联合的机器阅读理解模型，可应用于不同领域的阅读理解任务。研究采用了样本分配权重的方法，并结合预训练语言模型（如 ELMo），在一组阅读理解数据集上实现了新的最佳效果。

Sep, 2018

排名与重新加权改善组分布鲁棒性

本文提出了一种基于 Discounted Cumulative Gain（DCG）评估模型质量的方法，并建议了 Discounted Rank Upweighting（DRU）训练方法以提高模型的品质，在实验中结果表明，这种基于组排名的训练方法能够选择和学习出对组分布性变化具有鲁棒性的模型。

May, 2023

具动态样本加权的噪声鲁棒性双向学习

本文提出了一种双向学习方案，在保证收敛速度的同时，通过负样本的强大辨别能力来有效地处理标签噪音。此外，该文还提出了一种动态的样本重新加权策略来全局削弱噪声标记样本的影响，并结合自蒸馏来进一步提高模型性能。

Sep, 2022

语言模型预训练的不可简化课程

提出了一种用于大型语言模型预训练的不可约课程算法，通过模拟训练轨迹中的样本损失，以提高学习性，实验证明在各个领域中都能提高验证困惑度，并且降低网络的尖锐度，在 MMLU 基准上表现出更好的 5-shot 准确度。

Oct, 2023