深度学习中基于 MDP 同态的在线抽象

Nov, 2018

深度学习中基于 MDP 同态的在线抽象

Online Abstraction with MDP Homomorphisms for Deep Learning

Ondrej Biza, Robert Platt

TL;DR本论文提出了一种新的算法来找到在具有连续状态空间的环境中的 MDP 抽象，基于 MDP 同态，该算法演示了抽象学习的能力并展示了如何重用这些抽象来引导在新任务中的探索。论文中的任务转移方法在大多数实验中优于基于深度 Q 网络的基准线。

Abstract

abstraction of markov decision processes is a useful tool for solving complex problems, as it can ignore unimportant aspects of an environment, simplifying the process of learning an optimal policy. In this paper

markov decision processes mdp homomorphisms abstraction continuous state spaces task transfer method

发现论文，激发创造

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用 MDP 同态性进行表示学习可以提高其性能。

May, 2023

一种使用学习 MDP 同态的状态 - 动作抽象简易方法

提出了一种新方法，即等效效果抽象，该方法利用环境动态的部分模型推断导致相同状态的状态动作对，从而将状态动作空间的大小减少一个等于动作空间基数的因子，以提高采样效率和规划效率。在网格世界环境下，通过实验证明，等效效果抽象可以在模型自由设置和基于模型的方法的规划效率中提高采样效率。此外，通过在车杆环境中进行实验，还表明本方法比现有方法更优秀，在使用 33 倍少的训练数据的情况下实现了更好的表现。

Sep, 2022

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019

MDP 同态网络：强化学习中的群对称性

本文介绍了一种基于 MDP 同态网络的深度强化学习方法，使用等变性约束将先验知识建立在策略和价值网络中，能够快速收敛，特别适用于格子世界和 CartPole 等问题。

Jun, 2020

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏（技术报告）

在强化学习中，为了解决政策简化和验证的挑战，作者们构建了 DeepMDP 框架，基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界，该边界可以为 MDP 的形式方法应用提供支持。同时，作者们还演示了如何通过最先进的 RL 获得一个政策，并使用该政策有效地训练一个 VAE 模型，获得这个模型的双模拟保证的近似正确性的提炼版。

Dec, 2021

深度 MDP：多目标跟踪的模块化框架

该研究论文介绍了一种基于马尔可夫决策过程（MDP）的快速模块化多目标跟踪框架，可用于各种应用领域，并提供了一个交互式 GUI，集成了目标检测、分割、多目标跟踪和半自动标注等功能，以帮助使用者更容易入门。虽然在性能方面没有突破性的进展，但 Deep MDP 有一个庞大的代码库，对于尝试新想法或者构建易于使用和适应的多目标跟踪系统的人群将会有很大的帮助。可以在指定的 URL 获取 Deep MDP。

Oct, 2023

DeepAveragers：通过求解派生的非参数 MDP 实现离线强化学习

研究了一种离线强化学习方法，在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示，并具有支持多种解决方案、零成本调整等特性；其主要贡献是引入了 Deep Averagers with Costs MDP，并研究了其在离线强化学习方面的解决方案。实验证明这种方法在实践中可以发挥作用，并可扩展到大型复杂的离线 RL 问题。

Oct, 2020

连续迁移的聚类马尔可夫决策过程

本文提出了一种算法，通过生成一个小且有效的源子集，以实现在强化学习中的全生命周期，基于策略重用的传递学习，从而代表已经学习完最佳策略的一组 MDP。同时，提出了一个聚类的框架，用于提取源子集，并通过在监控领域的实验证实了算法的有效性。

Nov, 2013