PlanGAN：基于模型的稀疏奖励和多目标规划

Jun, 2020

PlanGAN：基于模型的稀疏奖励和多目标规划

PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals

Henry Charlesworth, Giovanni Montana

TL;DR本研究提出了 PlanGAN，一种使用模型的算法，专门针对具有稀疏奖励环境的多目标任务进行求解，该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。

Abstract

Learning with sparse rewards remains a significant challenge in reinforcement learning (RL), especially when the aim is to train a policy capable of achieving multiple different goals. To date, the most successful approaches for dealing with multi-goal, sparse reward environments have

reinforcement learning sparse rewards multi-goal tasks plangan model-based algorithm

发现论文，激发创造

GOPlan: 使用学习模型通过规划进行目标条件下离线强化学习

提出了一种新的基于模型的两阶段框架，Goal-conditioned Offline Planning（GOPlan），通过预训练一个能够捕捉多模式行为分布的先验策略，并利用规划生成假想轨迹进行微调策略，实现了离线多目标操作任务上最先进的性能。

Oct, 2023

在线强化学习中的规划的新视角

本文提出了一种新的基于模型的强化学习方法，使用背景规划来混合（近似）动态规划和无模型更新，以解决学习模型的不准确性和生成无效状态的问题，并通过约束背景规划到一组（抽象的）子目标和只学习局部的、以子目标为条件的模型来提高计算效率，自然地包含时间抽象以实现更快的长期规划，并完全避免学习转换动力学，展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。

Jun, 2024

SAGE: 深度强化学习中为近视模型生成符号化目标

本文提出新的算法 SAGE，结合符号性规划与神经网络学习等方法，以克服传统模型的局限，更高效地解决基于模型的强化学习在处理部分了解环境时遇到的问题。该算法在出租车环境和 Minecraft 等变化场景中的表现优于其他方法。

Mar, 2022

子目标模型的目标空间规划

本文介绍了一种新的基于模型的强化学习方法来使用背景计划：将（近似）动态规划更新和无模型更新混合，类似于 Dyna 架构。我们通过将背景规划限制在一组（抽象）子目标上，并仅学习本地的、子目标条件模型的方法来避免高内存和计算使用率的不足，并证明了我们的 GSP 算法在各种情况下可以比 Double DQN 基线学习得更快。

Jun, 2022

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

使用因果关系 InfoGAN 学习可计划表示

该论文探讨了如何利用深度生成模型和计划算法生成高维图像的目标导向视觉规划序列，并以绳索操纵为例进行了演示。

Jul, 2018

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

稀疏图形记忆用于鲁棒规划

该论文介绍了 Sparse Graphical Memory (SGM) 的新数据结构，与深度学习和经典规划相结合，以实现用于长时间范围下稀疏奖励视觉导航任务的可扩展性表现优于当前领先的方法。

Mar, 2020

利用预训练技能来拓展目标勘探，用于稀疏奖励长时间尺度的目标条件加强学习

本文提出了一种新的学习目标，通过优化已实现和未来需要探索的目标的熵，以更高效地探索子目标选择基于 GCRL，该方法可以显著提高现有技术的探索效率并改善或保持它们的表现。

Oct, 2022