元梯度强化学习
本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标,并灵活地以深度神经网络为参数。随着时间的推移,该算法可以学习如何学习,最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。
Jul, 2020
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法,该方法可以广义地适用于训练中未看到的新环境,并能够从头开始学习和提高行业表现。
Jan, 2021
在多智能体系统中,基于梯度的学习很困难,LOLA 通过在一步优化中不同化来解决这个问题,我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法,核心是一个称为元 - 价值的函数,它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和,我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。
Jul, 2023
本文研究如何改变回报函数的形式来增强学习最优策略,提出使用通用数学形式的回报函数,并通过元学习来以端到端的方式学习最优回报函数,在迷宫环境和多个 Atari 游戏上进行测试,实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。
May, 2019
本文提出了一种算法来解决元学习中的元优化问题,通过自我教育的方式实现优化及扩展了有效的元学习层数, 在 Atari ALE 基准测试中取得了最新的最佳表现,并展示了在多任务元学习中节省了模型训练时间的能力。
Sep, 2021
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
我们提出了一个样本高效的元强化学习算法,通过学习任务导向方式下的系统模型,在元强化学习中利用价值信息迅速捕捉环境的决策关键部分,并借助损失函数来学习任务推断模块和系统模型,从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线 LQR 问题中进行评估,实证验证了其从观测中提取解决任务所需信息的高效性。
Dec, 2023
强化学习是解决环境并实现目标达成的框架,该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明,该算法能够增强学习效果并保持目标的达成性质。
May, 2024