Apr, 2024

神经网络超参数优化中的提前弃用一轮高效方法

TL;DR通过研究一些常用的丢弃技术,如 successive halving 和 learning curve extrapolation,我们发现这些技术与使用常数数量的轮次进行训练后的丢弃策略相比,几乎没有添加价值。我们称之为 i-Epoch 的方法并建议通过比较他们的 Pareto-Front(消耗的培训轮次和预测性能)来评估早期丢弃技术的质量。