Mar, 2024
深度学习的超出单一模型视图:随机优化算法的优化与泛化能力
Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms
TL;DR本文采用一种新方法,通过估计随机优化器的稳态分布,从多条优化轨迹的集合中综合评估,旨在解决当前对深度学习优化算法有效性的理解不完整的问题。通过合成函数和计算机视觉、自然语言处理等领域的实际问题的评估,我们着重在统计框架下进行公平的基准测试和建立统计显著性,揭示了训练损失与保持精确度之间的关系以及SGD、噪声使能变体和利用BH框架的新优化器的可比性能,值得注意的是,这些算法展示了与SAM等平坦最小值优化器相当的性能,但梯度评估减少了一半。我们期待我们的工作将促进深度学习优化的进一步探索,鼓励从单模型方法转向更加认识和利用优化器的随机性质的方法。