adaptive learning rate | BriefGPT

关键词adaptive learning rate

搜索结果 - 15

动态拜占庭强健学习：适应切换拜占庭节点
提出了一种能够抵抗动态帝国拜占庭行为的新方法 DynaBRO，结合多级蒙特卡洛梯度估计技术与鲁棒聚合工人更新的方法，并利用自适应学习率消除了对拜占庭工人百分比的需求。
PDF5 months ago
AdaLomo：自适应学习率的低内存优化
大型语言模型通常需要较大的内存来训练，但低内存优化（LOMO）技术通过引入自适应学习率以及矩阵分解等方法，降低了内存需求并与 AdamW 优化器在大语言模型上表现相当。
PDF9 months ago
上下文马尔可夫决策过程中的策略梯度方法步长学习
本文提出一种基于元强化学习的新框架 meta-MDP，用于解决强化学习中精细的特定超参数选取问题，通过动态推荐不同策略和任务的步长，实现了在异构环境下选择自适应学习率的优势。
PDFa year ago
基于角度的梯度下降动态学习率
提出了一种新颖而简单的自适应梯度下降方法，使用当前梯度和新梯度之间的角度代替传统方法中的梯度期望，通过角度历史记录确定更好的自适应学习率，从而比现有的最先进的优化器在大多数数据集上实现更高的准确性，并证明了该方法的收敛性。
PDFa year ago
量化自适应次梯度算法及其应用
为了在分布式模型训练中平衡通信成本、模型容量和模型性能，本文提出了分布式训练的量化复合镜像下降自适应子梯度（QCMD adagrad）和量化正则化双均值自适应子梯度（QRDA adagrad）算法，利用梯度量化和稀疏模型降低每次迭代中的通信
PDF2 years ago
为推荐系统的在线更新进行元学习
介绍了 MeLON 一种用于在线推荐系统的元学习更新策略，其支持两向灵活性，通过自适应学习率来快速学习到用户的最新兴趣，并且在三个真实的在线推荐数据集上进行了广泛的评估和理论分析。
PDF2 years ago
KDDMaxVA：通过最大化梯度观测方差快速调整步长
本文提出一种自适应学习率原则，通过将 Adam 中的平方梯度的运行平均替换为加权平均来实现。该方法比解决 Adam 中不稳定或过大的自适应学习率的 AMSGrad 和 AdaBound 等方法更有效，在机器翻译，自然语言理解和大批量预训练
PDF4 years ago
ICLRAdaShift: 自适应学习率方法的去相关性和收敛性
本文提出了一个名为 AdaShift 的新型自适应学习率方法，通过时间移位来实现 v_t 和 g_t 的去相关，解决了 Adam 的不收敛问题，并证明了其训练速度和泛化能力与 Adam 不相上下。
PDF6 years ago
统一动量的加权 AdaGrad 算法
通过引入重加权 AdaGrad 联合动量，AdaUSM 在解决难以收敛的随机问题时，其带权高斯平均符合实时梯度下降法 (SGD) 和 AdaGrad 的学习率下降速度，同时还能实现 SGD 动量和 Nesterov 学习率全方位的整合。
PDF6 years ago
怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权
我们提出了一种称为 Nostalgic Adam（NosAdam）的算法，通过更多考虑过去的梯度并设计自适应学习率，解决了类似于 Adam 的算法中缺乏长期记忆的问题，并在最佳已知收敛率下具有理论上的收敛保证。
PDF6 years ago
深度学习的鲁棒自适应随机梯度方法
本文提出了一种自适应学习率算法，该算法利用了损失函数的随机曲率信息自动调整学习率，并且提出了一种新的方差缩减技术以加速收敛，在深度神经网络实验中，相比于流行的随机梯度算法获得了更好的性能。
PDF7 years ago
ICML在线序列预测的平滑模仿学习
研究在线序列预测的平滑模仿学习问题，通过学习缩减的方法将其降低到回归问题，并采用正则化复杂函数类以确保平滑度。提出了一种元算法，实现快速稳定地收敛到好的策略，相比于以前的方法，具有全部确定性、自适应学习率等优点，并能保证稳定收敛，实证结果证
PDF8 years ago
IJCAI基于协方差矩阵预处理的深度神经网络自适应学习率
本文提出了一种名为 SDProp 的自适应学习率算法，通过协方差矩阵预处理来有效处理由随机优化引起的噪声，该算法针对各种神经网络具有比 RMSProp 及其变体更高的效率和有效性。
PDF8 years ago
非凸优化的平衡自适应学习率
该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法：ESGD，与 RMSProp 相比收敛速度更快，在非凸问题上表现更好。
PDF9 years ago
ICLRADASECANT：用于随机梯度的鲁棒自适应割线法
本文介绍一种新的自适应学习率算法，该算法利用曲率信息自动调整学习率，并提出一种新的方差缩减技术来加速收敛。在深度神经网络的初步实验中，与常见的随机梯度算法相比获得了更好的性能。
PDF10 years ago