无验证的调参：在训练集上搜索学习率和权重衰减

Mar, 2024

无验证的调参：在训练集上搜索学习率和权重衰减

Tune without Validation: Searching for Learning Rate and Weight Decay on Training Sets

Lorenzo Brigato, Stavroula Mougiakakou

TL;DR通过 Tune without Validation（Twin）管道，我们介绍了一种可以在没有验证集的情况下调整学习率和权重衰减的方法。我们利用最近关于假设空间中学习阶段的理论框架来设计一种启发式算法，该算法可以预测哪些超参数组合能够获得更好的泛化效果。通过网格搜索和早停 / 非早停调度器，Twin 在训练损失方面提供最佳结果的区域中执行试验。这些试验中，权重范数与泛化效果有很强的相关性。通过在 20 个图像分类数据集上进行广泛实验，并训练多种类型的深度网络（包括卷积、转换和前馈模型），我们验证了 Twin 的有效性，特别是在小样本场景下从头训练和微调的情况。

Abstract

We introduce tune without validation (Twin), a pipeline for tuning learning rate and weight decay without validation sets. We leverage a recent theoretical framework concerning learning phases in hypothesis space

tune without validation learning rate weight decay hyper-parameter combinations generalization

发现论文，激发创造

TWINS: 一个用于提高对抗鲁棒性迁移和泛化能力的微调框架

本文针对预训练模型在各种分类任务中要保持其鲁棒性的问题，研究了基于模型和数据的方法，提出了一种新的基于统计学的方法，TWINS fine-tuning 框架，通过在批量规范化层中保持预训练数据的平均值和方差来进行优化，结果显示 TWINS 确实提高了模型的鲁棒性和泛化性能。

Mar, 2023

分布式模型选择和训练研究平台 Tune

Tune 是一个机器学习模型选择和训练的统一框架，提供训练脚本和搜索算法之间的窄腰接口，适合于多种超参数搜索算法、可以方便地扩展到大型集群并简化算法实现。

Jul, 2018

基于梯度的可扩展连续正则化超参数调整

本文提出一种基于梯度的方法来调整模型的超参数，使其在对验证成本更有利的情况下进行模型参数梯度和更新，实现对正则化超参数的调优。在 MNIST、SVHN 和 CIFAR-10 数据集上的实验表明，此方法比其他基于梯度的方法成本更低且一致找到了好的超参数值，有望成为神经网络模型训练的有用工具。

Nov, 2015

LiveTune: 动态参数调整用于深度神经网络训练

通过存储参数在系统的指定端口上并允许动态调整，我们提出了一个新的框架 LiveTune，允许在训练过程中实时调整参数，从而提供持续的训练会话。通过对我们的框架进行广泛评估，我们发现每次超参数改变可以节省高达 60 秒和 5.4 千焦的能量。

Nov, 2023

WAVE: 变长模型自适应初始化的权重模板

針對模型初始化問題，本文提出了一種名為 WAVE 的多任務初始化方法，該方法在目標模型初始化過程中使用可調節的權重模板來改善預訓練模型不相容問題，並通過知識蒸餾將預訓練模型的知識轉移到結構化知識中，從而實現更高效的模型初始化和知識傳遞。

Jun, 2024

Autotune: 一种无导数优化框架，用于超参数调优

该论文提出了一种自动化的并行无导数优化框架 ——Autotune，它结合了多种专业的采样和搜索方法，可有效地调整机器学习模型的超参数，从而提高模型质量和训练效率，并通过并行计算和分布式训练优化算法的资源性能。

Apr, 2018

随着规模变化调整：用于计算效率训练的超参数优化

本文提出了一种名为 “CARBS” 的贝叶斯优化算法，通过在性能成本 Pareto 前沿周围进行本地搜索，解决了大规模深度学习模型参数调优的难题，并自动化了调优的 “黑魔法”，可以适用于任何深度学习问题，并发现了发现各种超参数的标度律，使得调优更加高效。

Jun, 2023

超调：大型语言模型的自适应调节方法，无需借助反向传播算法

本文提出了 HyperTuning 方法用于模型适应，可以生成特定任务的参数并在大量多样化语言任务上进行多任务微调。通过在 P3、MetaICL 和 Super-NaturalInstructions 数据集上的表现，证明该方法可以有效地为新任务生成参数，并改善性能。

Nov, 2022

关于层标准化调整在视觉 Transformer 连续学习中的有效性

通过回顾和扩展简单的迁移学习思想：学习任务特定的归一化层，我们在维持竞争性性能的同时降低了计算成本，在 ImageNet-R 和 CIFAR-100 实验中，我们的方法在计算上更加经济且结果要么优于现有技术水平，要么与其相媲美。

Aug, 2023

数据高效深度学习的自动调整方法

本文提出了 Self-Tuning 模型，通过自动调整来联合探索有标签和无标签数据以及预训练模型的转移，并且使用 Pseudo Group Contrast 机制来缓解对伪标签的依赖性和提高对错误标签的容忍度。实验表明，在五个任务中，Self-Tuning 具有比其 SSL 和 TL 对应物更好的表现，例如在 15% 标签的 Cars 数据集上将精度提升了一倍。

Feb, 2021