- 神经网络的实际灵活性如何?
神经网络对数据的拟合能力的研究发现,标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集,卷积网络比多层感知机和视觉注意力变换模型更有效,随机梯度下降在拟合训练集方面比全批量梯度下降更好,对于正确和错误标记样本的拟合能力差异可以预测 - Adam 算法在可分数据上的隐含偏差
当训练数据是线性可分的时候,Adam 会收敛到一个线性分类器,能够达到最大的 l∞- 边界,并且此收敛在多项式时间内发生,这一结果从理论角度揭示了 Adam 和(随机)梯度下降之间的差异。
- 深度神经网络的元学习损失函数
探索利用元学习概念来改善性能,尤其是通过损失函数这个常常被忽视的组成部分。损失函数是学习系统的重要组成部分,它代表了主要的学习目标,在系统成功优化该目标的能力上进行了量化。
- 视觉任务中二阶指数缩放优化器的统一平衡理论
我们通过使用变量的二阶指数尺度(SMES)的潜在方法,提出了一种统一一阶优化器的可能方法。我们从反向传播开始,解决经典现象(如梯度消失和梯度爆炸),以及与数据集稀疏性相关的问题,引入了优化中的平衡理论。通过这个理论,我们认为可以在更广泛的推 - 优化学习率和批次大小缩放中的涌现现象
Adam style 优化器中,最佳学习率和批量大小之间存在一种缩放规律,通过理论分析和实验验证了这种规律。
- 神经优化方程、衰减函数和学习率时间表的联合演化
我们提出了一种新的双联合搜索空间,以及一种完整性检查,用于自动化找到深度学习优化器的过程;我们通过使用我们提出的基于粒子的仅突变的遗传算法在 CIFAR-10 数据集上评估了候选优化器,并将最终优化器迁移到 CIFAR-100 和 Tiny - 深度神经网络的变分随机梯度下降
将梯度更新建模为概率模型并利用随机变分推断(SVI)推导出一种高效且有效的更新规则,该方法称为变分随机梯度下降(VSGD)优化器,相较于 Adam 和 SGD,VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。
- Adapprox:通过随机低秩矩阵在 Adam 优化中进行自适应逼近
Adapprox 是一种使用随机低秩矩阵近似来更有效准确地近似 Adam 的二次矩的新方法,在 GPT-2 训练和下游任务中,Adapprox 相比 AdamW 能够实现 34.5%到 49.9%和 33.8%到 49.9%的内存节省,并且 - 不同优化策略对土壤湿度估计的物理约束深度学习的影响
通过物理约束的深度学习(P-DL)框架,结合水运输和水感知信号的物理原理,有效重建土壤湿度动态,从而在训练过程中,演示了 Adam 优化器的经验收敛性在迷你批次和完全批次训练中优于其他优化方法。
- 优化器的部分排序
我们提出了一个基于多个标准和各种测试函数来评估优化器的基准测试框架,利用一种新近引入的免联盟通用深度函数,充分利用次序信息,允许不可比较性,描述了所有部分次序的分布,避免了聚合的明显缺陷,可以识别产生优化器的核心或异常排名的测试函数,并评估 - ACL当为自然语言处理任务微调预训练 Transformer 模型时,是否应该尝试多个优化器?是否需要调整其超参数?
通过实验发现,当优化器的超参数调整后,复杂的自适应优化器在测试性能上并没有实质性的差异,而仅调整学习率在大多数情况下就能达到与调整所有超参数相当的效果,因此建议选择最佳性能的任何自适应优化器,并仅调整其学习率。当无法调整超参数时,SGD w - MLPerf 训练突破:BERT 优化案例研究
提出了新的方法,包括负载均衡、通信成本隐藏、优化器重新评估,并结合超参数优化和更大的批次使用 ADAM 等技术,实现了最快的 MLPerf BERT 训练,比其他两个(一个)MLPerf v1.1(v2.0)提交的结果更快。
- AAAI一步学习,一步评议
我们提出了一种名为 OLOR(One step Learning, One step Review)的新型基于权重回滚的微调方法,结合优化器,每一步都将权重回滚项引入权重更新项,确保上下游模型的权重范围一致,有效减轻知识遗忘问题,并提高微调 - 对 ASSIRA 猫狗数据集进行各种预训练深度学习模型的基准分析
通过比较不同预训练模型、优化器和损失函数的使用,以及改变超参数,本研究在 ASSIRA Cats & Dogs 数据集上实现了更高的准确性,证明了 NASNet Large 模型在此数据集上的优越性。
- 超网络的优化器、初始化器和架构对示教式连续学习的影响
对于连续学习从示范中(CLfD)的研究,本文通过一项探索性研究评估了不同优化器、初始化方法和网络架构对于 CLfD 中超网络学习性能的影响。结果表明,自适应学习率优化器效果很好,但针对超网络设计的初始化方法对于 CLfD 没有优势。同时,我 - EMNLPCoLLiE: 高效方式中的大型语言模型的协同训练
这篇论文介绍了 CoLLiE,一种高效的库,通过 3D 并行性、参数高效微调方法和优化器,如 Lion、Adan、Sophia、LOMO 和 AdaLomo,促进了大型语言模型的协作训练。CoLLiE 在预训练和微调场景中证明了其卓越的训练 - 自适应随机优化器的最佳超参数 $ε$ 探索:基于梯度直方图的方法
基于梯度直方图的新框架分析和证明自适应优化器的重要属性,包括最佳性能和超参数之间的关系和依赖性;同时,提出一种基于梯度直方图的新算法,可以自动估计减少且准确的搜索空间,用于寻找安全保护超参数 epsilon 的最佳值。
- 机器学习的自适应优化算法
研究通过自适应性来改进机器学习的优化算法,包括个性化和用户特定模型、可证明的后训练模型自适应、实时学习未知超参数、快速收敛的二阶方法和基于低维更新的快速可扩展的二阶方法,以提供新的见解、引入具有改进收敛性保证的新算法并改进了流行实用算法的分 - 电力网络拓扑控制的分层强化学习
使用层次强化学习方法控制电网拓扑结构,通过在不同层次应用强化学习算法,实现电网操作的长期目标且在困难任务上超越其他方法。
- 高效可训练投影用于鲁棒微调
通过投影的方法,我们提出了一种快速可训练的投影算法(FTP)来实现鲁棒精调,该算法能够快速学习每层投影约束,相较于之前的工作,我们的基准测试中速度提升了 35%。我们通过对四个不同视觉任务和五个不同的预训练模型进行的经验性研究表明,FTP