超越马尔可夫决策过程的同态性能保证

Nov, 2018

超越马尔可夫决策过程的同态性能保证

Performance Guarantees for Homomorphisms Beyond Markov Decision Processes

Sultan Javed Majeed, Marcus Hutter

TL;DR通过扩展 Extreme State Aggregation（ESA）框架到联合状态 - 动作聚合，同时解除 ESA 中聚合的策略统一性条件，可以实现更粗糙的真实环境建模，进而将更多状态聚合起来，即使状态空间复杂庞大，也可以保证近乎最优的性能。

Abstract

Most real-world problems have huge state and/or action spaces. Therefore, a naive application of existing tabular solution methods is not tractable on such problems. Nonetheless, these solution methods are quite useful if an agent has access to a relatively small state-action space homomorphi

state-action space homomorphism markovian representation extreme state aggregation non-markovian policy uniformity

发现论文，激发创造

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022

通用强化学习中大规模动作空间的精确缩减

本论文针对强化学习中的大行为空间问题进行研究，在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation（ESA）界限的同时，提供一个 logarithmic 规模上限的 binarized ESA 方案。

Dec, 2020

用于计算马尔可夫决策过程近似最优解的模型简化技术

介绍了一种新方法，用于解决具有非常大状态空间的隐式（分解式）马尔可夫决策流程（MDPs）。该方法通过 epsilon-homogeneous 分区算法将大型 MDP 转化为较小的 BMDP 以分析大型隐式 MDPs。

Feb, 2013

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

本文提出了一种单步估计算法，用于处理高维状态空间，同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数，使每次策略改进都能够进行。研究表明，该算法可以达到平稳状态，同时在 MuJoCo 机器人控制问题和其转移设置中，相比其他逆向强化学习算法和模仿学习基准，该算法表现更好。

Oct, 2022

从马尔科夫转移数据中学习状态聚合

本文提出了一个基于软聚合模型的简单算法，通过对系统轨迹的概率聚合图进行估计，可以获得显式形式的聚合分布和解聚分布，进而生成具有理解性的数据驱动状态聚合图。

Nov, 2018

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。

May, 2023

马尔可夫决策过程之外的极限状态聚合

研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Jul, 2014

在连续状态空间中寻找反事实最优行动序列

针对连续环境的顺序决策问题，本文提出了一种基于有限时间马尔可夫决策过程和双射结构因果模型的搜索方法，并在真实临床数据上进行了实验。

Jun, 2023

可规划的 MDP 同态逼近：在行动下的等变性

该研究利用行动等变性原理进行表示学习，提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。

Feb, 2020

深度学习中基于 MDP 同态的在线抽象

本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象，基于 MDP 同态，该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。

Nov, 2018