一种使用学习 MDP 同态的状态 - 动作抽象简易方法

Sep, 2022

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism

Augustine N. Mavor-Parker, Andrea Banino, Lewis D. Griffin, Caswell Barry

TL;DR提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Abstract

Animals are able to rapidly infer from limited experience when sets of state action pairs have equivalent reward and transition dynamics. On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples fro

mdp homomorphisms sample efficiency equivalent effect abstraction model-free setting planning efficiency

发现论文，激发创造

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。

May, 2023

可规划的 MDP 同态逼近：在行动下的等变性

该研究利用行动等变性原理进行表示学习，提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。

Feb, 2020

深度学习中基于 MDP 同态的在线抽象

本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象，基于 MDP 同态，该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。

Nov, 2018

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

超越马尔可夫决策过程的同态性能保证

通过扩展 Extreme State Aggregation（ESA）框架到联合状态 - 动作聚合，同时解除 ESA 中聚合的策略统一性条件，可以实现更粗糙的真实环境建模，进而将更多状态聚合起来，即使状态空间复杂庞大，也可以保证近乎最优的性能。

Nov, 2018

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

用于计算马尔可夫决策过程近似最优解的模型简化技术

介绍了一种新方法，用于解决具有非常大状态空间的隐式（分解式）马尔可夫决策流程（MDPs）。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。

Feb, 2013

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022

MDP 同态网络：强化学习中的群对称性

本文介绍了一种基于 MDP 同态网络的深度强化学习方法，使用等变性约束将先验知识建立在策略和价值网络中，能够快速收敛，特别适用于格子世界和 CartPole 等问题。

Jun, 2020

具备继承特性的选项传输和 SMDP 抽象

本文研究了强化学习中的联合时间和状态抽象，其中采用继承特征的新颖抽象机制，使得抽象选项可以在不同环境下转移并进行有效规划。

Oct, 2021