马尔可夫决策过程之外的极限状态聚合
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题,其状态与特征相关。我们讨论了这种聚合的性质和可能的实现,其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为,通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数,从而潜在地导致更有效的政策改进。
Apr, 2018
本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法,证明了 MAXQ-Q 学习算法在一定的条件下收敛,并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。
May, 1999
本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。
May, 2014
本论文针对强化学习中的大行为空间问题进行研究,在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation(ESA)界限的同时,提供一个 logarithmic 规模上限的 binarized ESA 方案。
Dec, 2020
本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数,采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。
Apr, 2023
本文提出了一个基于软聚合模型的简单算法,通过对系统轨迹的概率聚合图进行估计,可以获得显式形式的聚合分布和解聚分布,进而生成具有理解性的数据驱动状态聚合图。
Nov, 2018
本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。
Nov, 2022