利用学习的策略基础进行规划以最优解决复杂任务

Mar, 2024

利用学习的策略基础进行规划以最优解决复杂任务

Planning with a Learned Policy Basis to Optimally Solve Complex Tasks

Guillermo Infante, David Kuric, Anders Jonsson, Vicenç Gómez, Herke van Hoof

TL;DR用继任特征学习策略基础，以解决具有非马尔可夫奖励规范的多个任务的广义问题，在有限状态自动机中描述的任务中，使用这些（子）策略的组合可以在无需额外学习的情况下生成最优解，与通过规划组合（子）策略的其他方法相比，本方法能达到全局最优性，即使在随机环境中也是如此。

Abstract

Conventional reinforcement learning (RL) methods can successfully solve a wide range of sequential decision problems. However, learning policies that can generalize predictably across multiple tasks in a setting with non-Markovian reward specifications is a challenging problem. We prop

reinforcement learning successor features generalization finite state automaton global optimality

发现论文，激发创造

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

基于乐观的线性支持和继承特征的最优策略转移

介绍了一种基于 SF 的新算法，它允许 RL 代理结合现有策略，并在任意新问题上直接识别出最优策略，无需进一步与环境进行交互。该算法可通过广义策略改进将策略组合形成最优行为，且性能优于现有竞争算法。

Jun, 2022

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

使用广义策略更新构建迁移的良好行为基础

本文提出了一种简单有效的算法，通过构建独立的策略集合，可以在不需要大量数据的情况下，在各种复杂的强化学习任务中实现高水平的性能表现，同时解决了基于线性特征函数的多个任务的奖励子问题，并应用于终身强化学习设置中。

Dec, 2021

基于后继特征的元强化学习

为了实现多任务学习和数据效率，提出了一种基于环境变量和后继特征框架的元强化学习方法，可在减少环境交互的情况下实现具有竞争力的性能和数据效率。

Jul, 2022

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

使用目标条件策略模拟基于图的规划

该论文提出了一种基于图形规划算法和自我模仿的方法，通过提取子目标策略来优化目标目标策略，从而提高在长期任务中实现指定目标的样本效率。

Mar, 2023

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019

无监督从少量样本学习通用政策

此研究提出了一种替代方法来计算更具表现力的通用策略，该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述，通过定义来自规划示例中的谓词的大但有限的功能池，并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后，这将作为单个组合优化问题一起解决，用加权最大满足问题来表示。

Jan, 2021