层次强化学习的隐空间策略

ICMLApr, 2018

Latent Space Policies for Hierarchical Reinforcement Learning

Tuomas Haarnoja, Kristian Hartikainen, Pieter Abbeel, Sergey Levine

TL;DR本文介绍了一种学习分层深度神经网络策略，通过最大熵强化学习目标训练各层解决任务，并通过潜在随机变量进行增广，从而实现多层次策略学习。对标准基准测试任务，通过增加多层，可以改善高层策略表现。对于简单低层次的目标，高熵技能的优化学习可以解决更复杂的稀疏奖励任务。

Abstract

We address the problem of learning hierarchical deep neural network policies for reinforcement learning. In contrast to methods that explicitly restrict or cripple lower layers of a hierarchy to force them to use higher-level modulating signals, each layer in our framework is trained t

hierarchical deep neural network policies maximum entropy reinforcement learning latent variables multi-layer policies sparse-reward tasks

发现论文，激发创造

分层策略学习对目标空间设计敏感

通过对理想目标空间的研究，系统地分析的各种修改对分层模型学习的影响，结果表明旋转目标空间和噪声对学习没有影响，而具有额外的不必要因素显著地损害了分层模型的学习效果。

May, 2019

分层强化学习中的子策略适应

本文提出了一种新的分层强化学习算法 HiPPO，它可以根据新任务的训练不断调整技能并与更高层次一起训练，该算法引入了一个无偏差的潜变量依赖基准的分层策略梯度，并提出了一种训练时抽象方法，以提高所获得技能对环境变化的鲁棒性。

Jun, 2019

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

基于层次结构的 KL 正则化强化学习中的学习和迁移

本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法，它可以利用先验知识并在解决方案空间中利用可重复使用的结构，同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明，这种代理方法可以应用于不同的连续控制任务中，获得更快的学习和置换效果。

Mar, 2019

学习多级层次结构及回溯

本文介绍了一种新的 Hierarchical Reinforcement Learning (HRL) 框架 - Hierarchical Actor-Critic (HAC)，该框架能够克服在试图同时学习多个策略层级时出现的不稳定性问题，并能够在连续状态和动作空间的任务中成功地学习 3 级层级。

Dec, 2017

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

基于优势加权信息最大化的分级强化学习

本研究提出了一种基于相互信息最大化学习层次策略潜变量的 HRL 方法，用于优化连续控制任务中的强化学习性能，并介绍了优势加权重要性采样和确定性策略梯度方法，以实现选项策略选择和优化。实验结果表明，该方法可以学习多样化的选项并增强连续控制任务中强化学习的性能。

Jan, 2019

技能批评家：为强化学习优化学得技能

利用 Skill-Critic 算法，结合高层技能选择来优化低级和高级策略，通过离线演示数据学习到的潜在空间来指导联合策略优化，提高在多个稀疏环境中的决策性能。

Jun, 2023

潜在状态边际化：改善探索的低成本方法

本文介绍了一种称为 SMAC 的算法，它使用最大熵强化学习框架中的潜在变量策略来提高探索和稳健性能力，并在连续控制任务上进行实验验证。

Oct, 2022