优化算法的符号发现
Lion 是一种优化器模型,通过程序搜索发现,它在训练大型 AI 模型上展示了有希望的结果,在内存效率上与 AdamW 相当或更好。通过连续时间和离散时间分析,我们证明了 Lion 在最小化一般损失函数并强制执行边界约束时是理论上新颖和有原则的方法, LION 综合了多种现有算法的要素,但其理论基础仍然不确定。
Oct, 2023
本文介绍了一种新颖的 Lion 优化器适用于分布式训练环境,通过使用 Lion 中的符号操作符,仅需要在工人和中心服务器之间传送二进制或低精度向量,可显著降低通信成本,并具有良好的性能和带宽平衡。
Mar, 2024
通过考虑损失函数信息以获得更好的泛化结果,我们提出了一种 AdamL 优化算法,该算法是 Adam 优化器的一种新变体。我们提供了足够的条件,以及 Polyak-Lojasiewicz 不等式,确保了 AdamL 的线性收敛性。与此分析的副产品,我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明,与 Adam、EAdam 和 AdaBelief 相比,AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时,如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络,这些卓越的性能得到了证实。最后,在普通卷积神经网络的情况下,AdamL 优于其他 Adam 的变体,并且在训练的后期阶段不需要手动调整学习率。
Dec, 2023
FedLion 是一种自适应联邦优化算法,将 Lion 算法的关键元素无缝地应用于分布式数据训练的 Federated Learning 框架中,通过综合评估表明 FedLion 在自适应算法中胜过现有的最先进算法,并通过使用有符号梯度在本地训练中来减少数据传输要求,进一步降低通信成本,并展示了 FedLion 相对于 FedAvg 等已建立的 FL 算法具有更快的收敛速度。
Feb, 2024
用循环神经网络控制器生成包括多种基本函数的特定领域语言的更新方程,通过强化学习来优化模型的性能,在 CIFAR-10 上发现了多种优化器,新增的 PowerSign 和 AddSign 优化器能够提高不同任务和架构的训练。
Sep, 2017
大型语言模型通常需要较大的内存来训练,但低内存优化(LOMO)技术通过引入自适应学习率以及矩阵分解等方法,降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
Oct, 2023
本研究提出了 Meta-Adaptive Optimizers(MADA),一个统一的优化器框架,它能够泛化多种已知的优化器,并在训练过程中动态学习最合适的优化器。数值结果表明,MADA 对亚优化的超参数具有鲁棒性,并且即使在调优超参数的情况下,它通常优于 Adam、Lion 和 Adan。同时,我们还提出了 AVGrad,它是 AMSGrad 的一种变体,在 MADA 中表现更好。最后,我们提供了收敛性分析,显示优化器的插值(特别是 AVGrad 和 Adam)可以改善它们的误差界限(在常数上),暗示了元优化器的优势。
Jan, 2024
该论文证明了引入符号回归到 Learning to Optimize (L2O) 中的概念可以避免可扩展性和可解释问题,提出了一种基于符号回归的 L2O 模型并证明了其有效性。
Mar, 2022
通过引入层次循环神经网络优化算法和基于元学习的小任务集,实现了一个新的学习梯度下降优化器,解决了在更大的问题上扩展能力不足和泛化能力受限问题,并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。
Mar, 2017
介绍了一种用于 3D 形状生成的分层潜空间扩散模型 (LION),该模型采用了变分自编码器 (VAE) 的方法,具有与点结构潜空间相结合的全局形状潜变量表示。LION 已在多个 ShapeNet 基准测试中实现了最先进的生成性能,并可用于多种相关任务,如形状去噪、体素条件综合。
Oct, 2022