元梯度强化学习

May, 2018

Meta-Gradient Reinforcement Learning

Zhongwen Xu, Hado van Hasselt, David Silver

TL;DR通过梯度元学习算法能够在线交互并学习环境，适应 return 的性质，进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。

Abstract

The goal of reinforcement learning algorithms is to estimate and/or optimise the value function. However, unlike supervised learning, no teacher or oracle is available to provide the true →

reinforcement learning value function bootstrapped approximation meta-learning atari 2600

发现论文，激发创造

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

进化式强化学习算法

通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法，该方法可以广义地适用于训练中未看到的新环境，并能够从头开始学习和提高行业表现。

Jan, 2021

元值学习：具备学习认知能力的一般性学习框架

在多智能体系统中，基于梯度的学习很困难，LOLA 通过在一步优化中不同化来解决这个问题，我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法，核心是一个称为元 - 价值的函数，它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和，我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。

Jul, 2023

超越指数衰减求和：自动学习回报函数

本文研究如何改变回报函数的形式来增强学习最优策略，提出使用通用数学形式的回报函数，并通过元学习来以端到端的方式学习最优回报函数，在迷宫环境和多个 Atari 游戏上进行测试，实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。

May, 2019

自助元学习

本文提出了一种算法来解决元学习中的元优化问题，通过自我教育的方式实现优化及扩展了有效的元学习层数，在 Atari ALE 基准测试中取得了最新的最佳表现，并展示了在多任务元学习中节省了模型训练时间的能力。

Sep, 2021

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

元元强化学习与在线 LQR 中的任务相关损失函数

我们提出了一个样本高效的元强化学习算法，通过学习任务导向方式下的系统模型，在元强化学习中利用价值信息迅速捕捉环境的决策关键部分，并借助损失函数来学习任务推断模块和系统模型，从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模块。此方法在高维机器人控制和在线 LQR 问题中进行评估，实证验证了其从观测中提取解决任务所需信息的高效性。

Dec, 2023

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024