ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化

Jun, 2024

ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化

ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

Rui Pan, Jipeng Zhang, Xingyuan Pan, Renjie Pi, Xiaoyu Wang...

TL;DR本研究提出了第一种可扩展实例，称为 ScaleBiO，通过与一种称为 LISA 的新型算法相结合，使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型（LLM），标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证上来说，对于不同规模的模型，包括 GPT-2，LLaMA-3-8B，GPT-NeoX-20B 和 Yi-34B，通过数据重加权广泛实验验证了 ScaleBiO 的有效性，其中双层优化成功地过滤了无关的数据样本，并选择了信息量较大的样本。从理论上来说，ScaleBiO 确保了学习到的数据权重的最优性，并具有匹配传统的一阶平滑凸优化双层优化范式的收敛保证。

Abstract

bilevel optimization has shown its utility across various machine learning settings, yet most algorithms in practice require second-order information, making it challenging to scale them up. Only recently, a paradigm of

bilevel optimization large language models data reweighting scaling first-order algorithms

发现论文，激发创造

使用双层优化重新加权数据的挑战

利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中，通过为每个训练数据点学习权重是一种吸引人的解决方案，但传统的双层优化算法可能导致次优解，这表明了数据重新加权的困难，并解释了为何这种方法很少在实践中使用。

Oct, 2023

BOME! 一种简单的一阶方法实现双层优化

本文提出了一种基于一阶梯度信息的简单双层优化算法，适用于深度学习中大规模的非凸函数，无需隐式微分，并有指导其在非凸优化问题上收敛于驻点的收敛性分析证明，实验结果表明其优越的性能表现。

Sep, 2022

双层优化的下界和加速算法

该论文从两个方面揭示双层优化的收敛率：提出首个双层加速优化器 AccBiO 并给出无梯度边界假设的复杂度上限，同时得出更紧的下限。此外，论文还证明在某些情况下，双层优化比极大极小问题更具有挑战性。关键词包括双层优化、收敛率、下限复杂度、AccBiO 和二次型条件数。

Feb, 2021

隐式双层优化：通过双层优化规划进行求导

本篇研究提出 Differentiating through Bilevel Optimization Programming (BiGrad) 模型，旨在将 Bi-level Programming 加入到神经网络中，通过类别估计算法以降低计算复杂度并支持对于连续变量的处理。实验结果表明，该模型成功地将传统单层方法扩展到了 Bi-level Programming

Feb, 2023

BloomGML: 透过双层优化镜头看图机器学习

双层优化是指将下层能量函数的最优解作为上层感兴趣的目标的输入特征。本文说明了一系列图学习技术可以被重新解释为双层优化的特殊情况或简化形式，并提出了更灵活的能量函数类，形成图神经网络的消息传递层。此外，本文探索了与非图神经网络图学习方法的密切联系，并通过实证结果展示了所提出的双层优化方法的多样性。

Mar, 2024

提高的双层模型：具有理论保证的快速和最优算法

本文提出了一种改进的双层模型，该模型利用自动差分算法优化了双层模型的公式，并在数据超级清理和超级表示学习等两个任务中进行了理论和实验评估，结果显示新模型的性能优于当前双层模型。

Sep, 2020

通过 Bregman 距离增强双层优化

本文提出了一种使用 Bregman 距离、具有低计算复杂度的增强型双层优化方法 BiO-BreD 和 SBiO-BreD，以解决双层优化问题，该问题的外部子问题非凸且可能非光滑，内部子问题强凸。通过数据超清理任务和超表征学习任务，证明了所提出的算法优于相关的双层优化方法。

Jul, 2021

机器学习中的双层优化：算法设计与收敛分析

本篇论文提供了多方面的双层优化算法收敛速度分析，包括问题和算法两个方面，提出了更加高效可扩展的算法设计，并最终提出了新的随机双层优化算法降低了实践中的复杂度并提高其效率。

Jul, 2021

具有可扩展在线双层优化的自适应训练分布

在现代机器学习中，基于网络规模的大型神经网络学习成为核心。本研究考虑在一个与应用领域不匹配的混杂预训练数据集的情况下，通过调整预训练分布的算法来适应目标测试条件。通过在线双层优化问题的一种近期表述，提出了一种算法，并考虑了可扩展性，该算法优先计算在训练点上的梯度，这些点最有可能改善目标分布上的损失。从经验证实，在某些情况下，这种方法比现有的领域适应性策略更加有益，但在其他情况下可能不成功。我们提出了一个简单的测试来评估我们的方法何时表现良好，并指出进一步的研究来解决当前的限制。

Nov, 2023

无界平滑的双层优化：一种新算法和收敛性分析

设计了一种名为 BO-REP 的新的双层优化算法，用于解决具有潜在无界平滑性的神经网络在双层优化问题中的挑战。证明了在随机环境下，该算法需要大约 1/ε^4 次迭代来找到一个 ε- 稳定点，结果与有界平滑度设置和没有均方平滑性的随机梯度的最新复杂度结果相匹配。实验证明了所提出算法在超表征学习、超参数优化和文本分类任务中的有效性。

Jan, 2024