发现具有时间感知的强化学习算法

ICLRFeb, 2024

发现具有时间感知的强化学习算法

Discovering Temporally-Aware Reinforcement Learning Algorithms

Matthew Thomas Jackson, Chris Lu, Louis Kirsch, Robert Tjarko Lange, Shimon Whiteson...

TL;DR最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案，允许在智能体的训练过程中动态更新其目标函数，从而获得具有表达能力的进度表，并增加在不同训练时间范围内的泛化能力。

Abstract

Recent advancements in meta-learning have enabled the automatic discovery of novel reinforcement learning algorithms parameterized by surrogate objective functions. To improve upon manually designed algorithms, t

meta-learning reinforcement learning objective function training horizon learning rules

发现论文，激发创造

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

进化式强化学习算法

通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法，该方法可以广义地适用于训练中未看到的新环境，并能够从头开始学习和提高行业表现。

Jan, 2021

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

一种贪心方法用于适应时序差分学习的迹参数

本文提出了一种新的目标函数来优化 lambda，使用基于状态而不是时间的线性复杂度的增量式 lambda 适应算法，并在三个不同的环境中进行了实验，这些贡献是针对在现实世界问题中运用时间差异学习方法的具体步骤。

Jul, 2016

多目标强化学习的超参数优化

对多目标强化学习中超参数优化的挑战进行了初步调查，并提出了一种系统性方法来解决这个问题，该方法能够显著提高多目标强化学习代理的性能，并鉴定了未来的研究机会。

Oct, 2023

贝叶斯优化中的迁移学习元学习获取函数

本文提出了一种基于元学习和高斯过程的贝叶斯优化具有自定义优化器的方法，通过将来自相关任务的信息进行转移学习，实现对目标函数的数据高效优化。

Apr, 2019

基于技能的元强化学习

本论文旨在提出一种使用离线数据集中的先前经验来解决长期奖励任务的元学习方法，以实现复杂、长期目标的快速解决，可以显著提高样本效率并减少与环境的交互次数。

Apr, 2022

利用学习目标改善元强化学习中的泛化能力

该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数，并可以推广到不同于元训练的新环境中发挥作用，具有大幅增加采样效率的离线二阶梯度。

Oct, 2019

元梯度强化学习

通过梯度元学习算法能够在线交互并学习环境，适应 return 的性质，进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。

May, 2018