强化学习中的时间协调探索的生成规划

ICLRJan, 2022

强化学习中的时间协调探索的生成规划

Generative Planning for Temporally Coordinated Exploration in Reinforcement Learning

Haichao Zhang, Wei Xu, Haonan Yu

TL;DR通过生成式规划方法可以更有效地进行值最大化的策略优化，从而实现对多步骤动作的生成和增强，进而提高探测效率和行动反应的自适应性。

Abstract

Standard model-free reinforcement learning algorithms optimize a policy that generates the action to be taken in the current time step in order to maximize expected future return. While flexible, it faces difficulties arising from the inefficient exploration due to its single step nature. In this work, we present →

generative planning method policy optimization exploration efficiency value maximization adaptive action planning

发现论文，激发创造

生成概率规划优化供应链网络

这篇论文介绍了一种名为《生成概率规划》的新型生成式人工智能技术，利用基于注意力的图神经网络、离线深度强化学习和策略模拟方法，通过概率仿真生成动态供应行动计划，实现了全局优化，适用于不同变化目标的供应链网络中的动态规划，为企业的绩效和盈利能力带来了显著提高。

Apr, 2024

PlanGAN：基于模型的稀疏奖励和多目标规划

本研究提出了 PlanGAN，一种使用模型的算法，专门针对具有稀疏奖励环境的多目标任务进行求解，该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。

Jun, 2020

在线强化学习中的规划的新视角

本文提出了一种新的基于模型的强化学习方法，使用背景规划来混合（近似）动态规划和无模型更新，以解决学习模型的不准确性和生成无效状态的问题，并通过约束背景规划到一组（抽象的）子目标和只学习局部的、以子目标为条件的模型来提高计算效率，自然地包含时间抽象以实现更快的长期规划，并完全避免学习转换动力学，展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。

Jun, 2024

在潜空间中通过组合目标实现高效在线微调

本文提出了一种名为 Planning to Practice（PTP）的方法，旨在解决普适性机器人面临的目标达成困难和训练代价高的问题，通过分解目标化问题和离线增强学习与在线探索相结合的方法，实现对复杂任务的有效训练和解决。

May, 2022

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

具有空间记忆的生成时序模型用于部分可观测环境

本文提出了一种新型的基于模型的强化学习方法，利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的，该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。

Apr, 2018

发现用于通用任务和动作规划的状态和动作抽象

本文提出一种算法，用于通过学习特征、抽象和广义计划来解决连续机器人任务和运动规划中的困难问题。研究表明，仅使用少量示例学习的简单广义计划可以用于优化 TAMP 求解器的搜索效率。

Sep, 2021

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019