使用广义策略更新构建迁移的良好行为基础

ICLRDec, 2021

使用广义策略更新构建迁移的良好行为基础

Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates

Safa Alver, Doina Precup

TL;DR本文提出了一种简单有效的算法，通过构建独立的策略集合，可以在不需要大量数据的情况下，在各种复杂的强化学习任务中实现高水平的性能表现，同时解决了基于线性特征函数的多个任务的奖励子问题，并应用于终身强化学习设置中。

Abstract

We study the problem of learning a good set of policies, so that when combined together, they can solve a wide variety of unseen reinforcement learning tasks with no or very little new data. Specifically, we consider the framework of generalized policy evaluation and improvement, in wh

reinforcement learning policy evaluation policy improvement diverse policy set construction lifelong reinforcement learning

发现论文，激发创造

利用学习的策略基础进行规划以最优解决复杂任务

用继任特征学习策略基础，以解决具有非马尔可夫奖励规范的多个任务的广义问题，在有限状态自动机中描述的任务中，使用这些（子）策略的组合可以在无需额外学习的情况下生成最优解，与通过规划组合（子）策略的其他方法相比，本方法能达到全局最优性，即使在随机环境中也是如此。

Mar, 2024

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

使用深度强化学习组合无关任务的策略

本文介绍了一种基于深度强化学习的技能转移和组合方法，该方法将智能体的原始策略应用到解决未知任务中，并可在高数据效率下解决需要任务规划和动作控制的挑战性环境。

May, 2019

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

从规约中归纳推理的强化学习

我们提出了一个新颖的归纳一般化框架，用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系，学习生成适应归纳任务实例的策略生成器，以实现对长期任务中未见策略的广义化。

Jun, 2024

强化学习中的序列迁移与生成模型

本研究旨在探讨如何设计强化学习代理，通过从之前解决的任务中转移知识，明确减少学习新任务的样本复杂度。具体地，本文关注第二种目标，即当代理具有状态行为对的生成模型时，如何快速识别最精确的解法。我们将转移设置降至一个隐马尔可夫模型，并使用谱方法从中恢复其参数。最后，我们在简单的模拟领域中实证了我们的理论发现。

Jul, 2020

基于因式策略的终身策略梯度学习：快速训练且不会遗忘

本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法，该方法可以直接训练终身函数逼近器，以便智能体在整个训练过程中从累积的知识中受益。本文表明，与单任务和学终身学习基线相比，我们的算法学习更快，收敛到更好的策略，并且在多种挑战性领域完全避免了灾难性遗忘。

Jul, 2020

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024