选择性混合微调以优化不可分解的目标

ICLRMar, 2024

选择性混合微调以优化不可分解的目标

Selective Mixup Fine-Tuning for Optimizing Non-Decomposable Objectives

Shrinivas Ramasubramanian, Harsh Rangwani, Sho Takemori, Kunal Samanta, Yuhei Umeda...

TL;DR通过互联网使用量的增加产生了大量的数据，从而导致了各种监督和半监督机器学习算法的采用，这些算法可以有效利用庞大的数据量来训练模型。然而，在将这些模型部署到实际环境之前，必须严格评估性能指标（如最坏情况召回率）并满足公平性等约束。我们发现目前最先进的经验技术在这些实际的不可分解性能目标上提供了次优的性能。另一方面，理论技术需要针对每个性能目标从头开始训练新模型。为了弥合这一差距，我们提出了 SelMix 技术，这是一种选择性混合的低成本微调技术，用于已预训练模型以优化所需的目标。我们的核心思想是确定一个采样分布，以在特定类别之间的样本之间进行特征混合，从而优化给定的目标。我们在标准基准数据集上对我们的技术进行了全面评估，与现有的经验和理论基础方法进行了比较，用于不平衡分类。我们发现所提出的 SelMix 微调显著提高了在各种实际的不可分解目标上的性能。

Abstract

The rise in internet usage has led to the generation of massive amounts of data, resulting in the adoption of various supervised and semi-supervised machine learning algorithms, which can effectively utilize the colossal amount of data to train models. However, before deploying these m

internet usage supervised and semi-supervised machine learning performance measures selmix technique imbalanced classification

发现论文，激发创造

使用不可分解目标训练超参数模型

本文提出一种新的代价敏感损失函数，以解决标签代价权重重新加权训练在过度参数化模型中可能导致的问题，并进行了 ResNet 模型的实验验证。

Jul, 2021

使用场景无关混合增强辨别性视觉表示学习

本文研究了 MixUp 生成的目标函数，提出了一种包括自监督学习在内的 SAMix 算法解决该问题，并使用 Mixer 模型来避免在线训练的计算成本。实验证明，SAMix 表现卓越。

Nov, 2021

解耦混合数据增强用于高效学习

提出了一种新的混合数据方法 ——Decoupled Mixup，该方法可以将动态混合数据方法的样本解耦机制转移到目标函数级别，实现在保持数据平滑性的前提下焦点自适应聚焦于判别特征，避免了计算负担，并且实验结果表明 Decoupled Mixup 达到了甚至超过了动态混合数据的性能

Mar, 2022

LossMix: 简化和泛化 Mixup 以用于目标检测和更多领域

该研究提出了一种新的概念框架 —— 监督插值，通过松弛和概括 Mixup，可以有效地规范混合数据的训练，进而提出了一种名为 LossMix 的简单却灵活且有效的正则化方法，并设计了一种两阶段的域混合方法，借助 LossMix 超越了 Adaptive Teacher，并在无监督领域适应中有了新的突破。

Mar, 2023

选择性混合有助于处理分布转移，但不仅仅因为混合

研究表明，特定样本对之间的非随机选择使训练分布受到影响，并通过与混合无关的方法提高了泛化能力。二元分类中的 Mixup 跨类混合隐含地对数据进行重新采样，从而实现了标签转移的经典解决方案。选择性混合和重新采样方法存在新的等价性，相关的优势可以更好地结合。

May, 2023

技能混合：学习为优化大型语言模型的数据使用进行微调

我们提出了一种通用的、模型无关的强化学习框架 Mixture-of-Skills (MoS)，它能在微调过程中自动优化数据使用，以实现大型语言模型的全面技能发展。我们通过在两个广泛使用的基准测试上进行大量实验证明 MoS 显著提高了模型性能，同时在任务特定微调方面，我们提出了一种适应性技术 MoSpec，为特定目的利用各种数据集的效用。我们的工作强调了数据集的再平衡的重要性，并将 MoS 提出为优化大型语言模型微调过程中数据使用的强大通用解决方案。

Jun, 2024

AutoMix: 揭示 Mixup 的强大分类器之力

该论文提出了一种自动混合框架 ——AutoMix，它将混合分类分为两个子任务，并使用相应的子网络在双层优化框架中解决。AutoMix 在 9 个图像基准上的广泛实验表明，在各种分类场景和下游任务中，其优越性超过了现有技术。

Mar, 2021

Co-Mixup: 基于显著性引导的超模复合联合 Mixup

本文提出了通过优化构建 mixup 数据的最佳方法以获得更好的神经网络推广性能和对数据干扰的鲁棒性，特别是使用基于模块化近似的迭代次模最小化算法来实现有效的 mixup 计算。

Feb, 2021

G-Mix: 通向扁平极小值的广义 Mixup 学习框架

深度神经网络（DNN）面临着超参数化的挑战，特别是在训练数据有限的情况下。为了增强 DNN 的泛化能力，我们提出了一种名为 Generalized-Mixup 的新学习框架，将 Mixup 和 Sharpness-Aware Minimization（SAM）的优势结合起来进行 DNN 模型训练。理论分析表明，开发的 G-Mix 框架可以增强泛化能力。此外，为了进一步优化 DNN 性能，我们引入了两种新算法：Binary G-Mix 和 Decomposed G-Mix。这些算法根据每个示例的锐度敏感性将训练数据划分为两个子集，以解决 Mixup 中 “流形入侵” 的问题。理论解释和实验结果均表明，所提出的 BG-Mix 和 DG-Mix 算法进一步提高了多个数据集和模型的模型泛化能力，实现了最先进的性能。

Aug, 2023

SMART：指令调优的子模数据混合策略

SMART 是一种基于子模函数的数据混合策略，用于在有限的预算情况下改进指令调优，通过选择代表性子集中的任务来分配预算，以实现更好的性能。

Mar, 2024