可预测的 MDP 抽象用于非监督式模型基础强化学习

Feb, 2023

可预测的 MDP 抽象用于非监督式模型基础强化学习

Predictable MDP Abstraction for Unsupervised Model-Based RL

Seohong Park, Sergey Levine

TL;DR本研究提出了一种可预判马尔可夫决策过程抽象的方法，通过无监督学习在训练模型时进行转换，使得模型的学习变得更加容易和精确，从而实现强大的基于模型的规划或基于模型的强化学习，已在多项基准环境中证明了其较先前的无监督模型训练方法具有显著的改进。

Abstract

A key component of model-based reinforcement learning (RL) is a dynamics model that predicts the outcomes of actions. Errors in this predictive model can degrade the performance of model-based controllers, and co

model-based reinforcement learning predictive model markov decision processes mdp abstraction unsupervised learning

发现论文，激发创造

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

具有对抗性辅助模型的强化学习鲁棒模型

应用鲁棒 MDPs 框架及引入一种新型的学习过渡模型，该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性，并在实验中展示了该模型在失真 MDPs 中提高学习策略性能的显著改进。

Jun, 2024

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

通过模型转换的可解释强化学习

通过使用形式化的马尔科夫决策过程抽象和转换，以自动产生解释的方式，解释强化学习智能体的新兴行为。

Sep, 2022

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

基于深度强化学习的 POMDP 推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

抽象学习模型规划与可迁移子任务学习

该研究利用一种新的形式结构，提出了一种基于模型的层次强化学习算法，名为 PALM，可学习独立、模块化的转移和奖励模型用于概率规划，并演示了其将规划和执行进行集成，以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。

Dec, 2019

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020