神经网络超参数优化中的提前弃用一轮高效方法

Apr, 2024

神经网络超参数优化中的提前弃用一轮高效方法

The Unreasonable Effectiveness Of Early Discarding After One Epoch In Neural Network Hyperparameter Optimization

Romain Egele, Felix Mohr, Tom Viering, Prasanna Balaprakash

TL;DR通过研究一些常用的丢弃技术，如 successive halving 和 learning curve extrapolation，我们发现这些技术与使用常数数量的轮次进行训练后的丢弃策略相比，几乎没有添加价值。我们称之为 i-Epoch 的方法并建议通过比较他们的 Pareto-Front（消耗的培训轮次和预测性能）来评估早期丢弃技术的质量。

Abstract

To reach high performance with deep learning, hyperparameter optimization (HPO) is essential. This process is usually time-consuming due to costly evaluations of neural networks. Early →

hyperparameter optimization deep learning discarding techniques neural network training i-epoch

发现论文，激发创造

一次迭代是否足够进行多重准确性超参数优化？

调研中发现多样性 MF-HPO 基准测试应包含更复杂的案例，同时建议研究人员始终使用建议的基准测试以及多样性 MF-HPO 方法的基准测试结果需要延长计算时间。

Jul, 2023

深度神经网络优化轨迹上的盈亏平衡点

本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数，指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数，在超过 “盈亏平衡点” 之后，通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题，这对于神经网络的优化效果具有积极作用，研究这些影响对于泛化性能的影响是一个有前途的研究方向。

Feb, 2020

深度点击率预测模型过拟合现象的理解

本研究表明，深度学习在工业推荐系统中得到了广泛的应用，但其模型在推荐系统中的过拟合问题受到的关注较少，而在点击率（CTR）预测中，出现了一个有趣的一次过拟合问题：模型性能在第二次迭代的开始时急剧下降，因此，通常使用仅一次迭代训练时性能最佳。本研究在阿里巴巴的广告系统数据集上进行了广泛的实验，结果表明，模型结构，具有快速收敛率的优化算法以及特征的稀疏性与一次过度拟合的现象密切相关，并提供了一个可能的假设来解释这种现象，并进行了一系列的概念证明实验，希望这项工作能为未来研究提供启示，训练更多迭代以获得更好的性能。

Sep, 2022

通过自动停止训练释放无监督深度异常检测的潜力

通过引入一个新的名为 loss entropy 的指标，本文针对深度离群点检测模型中的超参选择问题进行研究，提出了一种能够在训练过程中自动识别最佳停止时机而无需标签的新算法，实验证明该算法不仅能够提高模型对超参的稳健性，而且可以优化模型性能并减少训练时间。

May, 2023

超参数优化在离策略学习中甚至可能是有害的及其应对方法

基于偏置记录数据准确估计反事实政策效果的评估在许多情况下不仅用于评估决策政策的价值，还用于搜索大候选空间中的最佳超参数。本研究探讨了离策略学习中的超参数优化任务，并提出了简单而高效的校正方法来解决相关问题。实证调查证明了我们提出的超参数优化算法在典型流程严重失败的情况下的有效性。

Apr, 2024

超参数优化：算法和应用综述

利用自动超参数优化来设计和训练深度学习中的神经网络仍然是一个令人困惑和具挑战性的过程。本文对多种重要的自动超参数优化相关主题进行了回顾和研究：关键超参数、主要优化算法、超参数搜索框架、模型性能评估等。

Mar, 2020

连续学习中的超参数选择

对多任务连续学习问题中的超参数优化提供了多种真实可行且计算效率高的方法，并建议在第一个任务中对超参数进行拟合，并在后续训练中固定它们。

Apr, 2024

深度网络中的早停法：双重下降及其消除方法

本文探讨了过度参数化模型，特别是深度神经网络，在训练期间错误率的演化现象，其原因是来自于不同部分在不同时期学习带来的偏差 - 方差权衡嵌套问题。通过合理调整步长，可以显著提高早停指标。

Jul, 2020

理解和改善针对带噪标签学习的早停策略

本论文提出一种分步训练深度神经网络的方法，称为渐进式提前停止（Progressive Early Stopping, PES），以对抗训练过程中的标签噪声。该方法可以显著提高图像分类质量，并结合现有标签噪声训练方法，达到了最新成果。

Jun, 2021

epochwise 双重下降发生的时间和方式

本文研究表明，随着参数数量的增加，深度神经网络会呈现出 “双下降” 的特性，同时，随着训练时间的增长，也存在着 “按时间下降的双重下降” 效应，这在实践中导致训练时间过长，基于验证表现的早停可能导致非最优泛化。作者提出了一种可以从理论上解释 “按时间下降的双重下降” 的模型，并提供了两种方法来消除这种效应。通过理论分析和实验验证表明，消除缓慢学习特征或修改训练方式可以消除 “按时间下降的双重下降”，并且改善模型泛化性能。

Aug, 2021