在线发现目标的元梯度强化学习

Jul, 2020

Meta-Gradient Reinforcement Learning with an Objective Discovered Online

Zhongwen Xu, Hado van Hasselt, Matteo Hessel, Junhyuk Oh, Satinder Singh...

TL;DR本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Abstract

deep reinforcement learning includes a broad family of algorithms that parameterise an internal representation, such as a value function or policy, by a deep neural network. Each algorithm optimises its parameter

deep reinforcement learning meta-gradient descent neural network adaptation efficiency

发现论文，激发创造

元梯度强化学习

通过梯度元学习算法能够在线交互并学习环境，适应 return 的性质，进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。

May, 2018

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

元值学习：具备学习认知能力的一般性学习框架

在多智能体系统中，基于梯度的学习很困难，LOLA 通过在一步优化中不同化来解决这个问题，我们通过扩展 LOLA 的思想并开发出一种完全通用的基于价值的优化方法，核心是一个称为元 - 价值的函数，它在联合策略空间的每个点为每个智能体给出折现未来优化步骤中的目标的总和，我们通过训练神经网络以最小化沿优化轨迹上 TD 误差的方法来近似元 - 价值。

Jul, 2023

发现具有时间感知的强化学习算法

最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案，允许在智能体的训练过程中动态更新其目标函数，从而获得具有表达能力的进度表，并增加在不同训练时间范围内的泛化能力。

Feb, 2024

进化式强化学习算法

通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法，该方法可以广义地适用于训练中未看到的新环境，并能够从头开始学习和提高行业表现。

Jan, 2021

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

利用学习目标改善元强化学习中的泛化能力

该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数，并可以推广到不同于元训练的新环境中发挥作用，具有大幅增加采样效率的离线二阶梯度。

Oct, 2019

基于模型的元学习批判家对策略梯度的优化

针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Apr, 2022

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024