具有可扩展在线双层优化的自适应训练分布

Nov, 2023

具有可扩展在线双层优化的自适应训练分布

Adaptive Training Distributions with Scalable Online Bilevel Optimization

David Grangier, Pierre Ablin, Awni Hannun

TL;DR在现代机器学习中，基于网络规模的大型神经网络学习成为核心。本研究考虑在一个与应用领域不匹配的混杂预训练数据集的情况下，通过调整预训练分布的算法来适应目标测试条件。通过在线双层优化问题的一种近期表述，提出了一种算法，并考虑了可扩展性，该算法优先计算在训练点上的梯度，这些点最有可能改善目标分布上的损失。从经验证实，在某些情况下，这种方法比现有的领域适应性策略更加有益，但在其他情况下可能不成功。我们提出了一个简单的测试来评估我们的方法何时表现良好，并指出进一步的研究来解决当前的限制。

Abstract

large neural networks pretrained on web-scale corpora are central to modern machine learning. In this paradigm, the distribution of the large, heterogeneous pretraining data rarely matches that of the application domain. This work considers modifying the →

large neural networks pretraining distribution bilevel optimization problem domain adaptation scalability

发现论文，激发创造

使用在线双层优化学习图像分类数据增强

本研究提出了一种用双层优化训练网络的方法，以自动学习有效的数据增强转换的分布，从而提高其泛化性能并与分类器等模型联合训练，实现数据增强的最优化，相较于手工优化方式，本方法在图像分类准确性上表现更好同时无需昂贵的数据增强超参数外部验证循环。

Jun, 2020

使用双层优化重新加权数据的挑战

利用大训练集训练模型以在不同分布的较小测试集上表现良好的任务中，通过为每个训练数据点学习权重是一种吸引人的解决方案，但传统的双层优化算法可能导致次优解，这表明了数据重新加权的困难，并解释了为何这种方法很少在实践中使用。

Oct, 2023

ScaleBiO: 面向 LLM 数据重新加权的可扩展的双层优化

本研究提出了第一种可扩展实例，称为 ScaleBiO，通过与一种称为 LISA 的新型算法相结合，使软件在八个 A40 GPU 上扩展到 34 亿参数的大型语言模型（LLM），标志着在实际应用场景中首次成功应用双层优化于大型 LLM。从实证上来说，对于不同规模的模型，包括 GPT-2，LLaMA-3-8B，GPT-NeoX-20B 和 Yi-34B，通过数据重加权广泛实验验证了 ScaleBiO 的有效性，其中双层优化成功地过滤了无关的数据样本，并选择了信息量较大的样本。从理论上来说，ScaleBiO 确保了学习到的数据权重的最优性，并具有匹配传统的一阶平滑凸优化双层优化范式的收敛保证。

Jun, 2024

通过对预训练模型进行校准，在二进制网络上进行长尾识别

使用高度资源有效的二进制神经网络作为骨干结构来学习长尾分布，通过校准和蒸馏框架利用平衡数据集上的预训练全精度模型作为教师，结合对目标函数术语的对抗平衡和高效的多分辨率学习方案，在 15 个数据集上对最新的长尾数据集进行了最大规模的实证研究，结果显示我们的方法在平均上大幅优于现有技术（>14.33%）。

Mar, 2024

深度稳健学习 - 针对外部分布泛化

本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题，并通过学习训练样本的权重以消除特征之间的依赖关系，从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验，与同类研究相比，我们的方法取得了很好的效果。

Apr, 2021

通过缩放进行自适应的本地方法

本文旨在将局部训练技术与自适应方法相结合，以开发高效的分布式学习方法，并通过训练神经网络实验验证了方法的性能。

Jun, 2024

规模安全分布式训练

本文提出了一种新颖的协议，用于安全的（拜占庭容错）分散式训练，强调通信效率。

Jun, 2021

深度双层学习

本文提出了一种新颖的正则化训练神经网络的方法，基于交叉验证的原则，通过使用验证集来限制模型过拟合，其中通过引入在每个小批量训练集上的权重来控制过拟合，并通过在验证集上最小化误差来选择其值，此项工作可与其他正则方法和训练方案相结合，研究表明其显著提高了模型的泛化能力，特别是在标签嘈杂情况下。

Sep, 2018

通过置信度最大化和输入变换对分布偏移进行测试时间适应

该论文研究深度神经网络在非训练时数据分布下表现不佳的问题，提出一种全测试时间适应的解决方案，通过使用替代熵和添加基于批次的熵最大化的多样性正则化器来解决熵最小化的早期收敛和不稳定性问题，并且可以通过在完全测试时间适应性损失中学习无需目标域标签或源域数据的输入变换模块，从而达到在 ImageNet-C 等挑战性基准测试中提高公共预训练图像分类器鲁棒性的效果。

Jun, 2021

通过有原则的对抗训练证明一些分布鲁棒性

利用分布鲁棒优化的方式解决神经网络在对抗攻击下的鲁棒性问题，通过在 Wasserstein ball 内惩罚扰动数据分布的方式，通过我们提出的训练过程，能够实现对训练数据的最坏情况扰动而获得中等水平的健壮性，同时具有较小的计算和统计成本，并且我们的统计保证使我们能够有效地验证整体损失的健壮性，对于感知扰动，我们的方法与启发式方法相匹配或更好。

Oct, 2017