学习优化
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
本文探讨了使用 LSTMs 将优化算法设计转化为学习问题的方法,其中,通过让算法自动地利用感兴趣的问题中的结构,得出的学习算法在针对特定任务时比手动设计的算法表现更好,同时在具有相似结构的新任务上也具有很好的泛化性能,其应用范围从简单的凸问题,到神经网络训练和图像风格化等多种任务。
Jun, 2016
本文探索一种新的用于训练浅层神经网络的优化算法,该算法使用重新强化学习的方法,可以解决高维随机优化问题,即使在梯度和神经网络架构的随机性变化时,该算法训练出的优化算法始终优于其他已知的优化算法,能够成功将 MNIST 神经网络问题泛化到在多种不同数据集上进行的神经网络问题。
Mar, 2017
通过识别经典算法服从的关键原则并将其用于优化学习(L2O)中,我们提供了一个综合设计流程,以数据、架构和学习策略为考虑因素,从而实现经典优化与 L2O 之间的协同,形成了学习优化算法的理念。通过设计一种新的增强学习 BFGS 算法并提供数值实验证明其在多种测试环境中的适应性,我们展示了这些新原则的成功。
May, 2024
最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案,允许在智能体的训练过程中动态更新其目标函数,从而获得具有表达能力的进度表,并增加在不同训练时间范围内的泛化能力。
Feb, 2024
本研究基于贝叶斯优化框架,建立高斯过程模型,通过前期实验获得的信息来优化机器学习算法的超参数调整,作者提出可以超过经验人类调参表现的自动算法,并介绍收集实验信息、利用多核心并行实验等新算法。
Jun, 2012
用循环神经网络控制器生成包括多种基本函数的特定领域语言的更新方程,通过强化学习来优化模型的性能,在 CIFAR-10 上发现了多种优化器,新增的 PowerSign 和 AddSign 优化器能够提高不同任务和架构的训练。
Sep, 2017
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
Mar, 2023