存在对称性和状态抽象的策略梯度方法

May, 2023

存在对称性和状态抽象的策略梯度方法

Policy Gradient Methods in the Presence of Symmetries and State Abstractions

Prakash Panangaden, Sahand Rezaei-Shoshtari, Rosie Zhao, David Meger, Doina Precup

TL;DR本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。

Abstract

reinforcement learning on high-dimensional and complex problems relies on abstraction for improved efficiency and generalization. In this paper, we study →

reinforcement learning abstraction policy gradient actor-critic mdp homomorphisms

发现论文，激发创造

深度学习中基于 MDP 同态的在线抽象

本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象，基于 MDP 同态，该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。

Nov, 2018

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

MDP 同态网络：强化学习中的群对称性

本文介绍了一种基于 MDP 同态网络的深度强化学习方法，使用等变性约束将先验知识建立在策略和价值网络中，能够快速收敛，特别适用于格子世界和 CartPole 等问题。

Jun, 2020

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏（技术报告）

在强化学习中，为了解决政策简化和验证的挑战，作者们构建了 DeepMDP 框架，基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界，该边界可以为 MDP 的形式方法应用提供支持。同时，作者们还演示了如何通过最先进的 RL 获得一个政策，并使用该政策有效地训练一个 VAE 模型，获得这个模型的双模拟保证的近似正确性的提炼版。

Dec, 2021

可规划的 MDP 同态逼近：在行动下的等变性

该研究利用行动等变性原理进行表示学习，提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。

Feb, 2020

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

带拓扑约束的多目标策略梯度

本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程（TMDPs）的策略梯度定理及其实现，进一步扩展了 TMDPs 在面对多种复杂问题方面的应用，提出了一种针对多目标导航问题的新算法，并在模拟环境和实际机器人上进行了演示。

Sep, 2022