马尔可夫决策过程之外的极限状态聚合

Jul, 2014

马尔可夫决策过程之外的极限状态聚合

Extreme State Aggregation Beyond MDPs

Marcus Hutter

TL;DR研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Abstract

We consider a reinforcement learning setup where an agent interacts with an environment in observation-reward-action cycles without any (esp.\ mdp) assumptions on the environment. →

reinforcement learning state aggregation feature reinforcement learning mdp q-value functions

发现论文，激发创造

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018

MAXQ 层次强化学习中的状态抽象

本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法，证明了 MAXQ-Q 学习算法在一定的条件下收敛，并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。

May, 1999

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

在强化学习中选择近似最优的状态表示

本文研究了一种强化学习设置，其中学习者没有显式访问底层马尔可夫决策过程（MDP）的状态，而是可以访问将过去互动的历史映射到状态的多个模型，并改进了这种设置下已知的后悔边界，并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。

May, 2014

通用强化学习中大规模动作空间的精确缩减

本论文针对强化学习中的大行为空间问题进行研究，在提出非 MDP 情况下如何使用 action-binarization 来提高 Extreme State Aggregation（ESA）界限的同时，提供一个 logarithmic 规模上限的 binarized ESA 方案。

Dec, 2020

基于数据驱动的状态聚合方法用于动态离散选择模型

本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数，采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。

Apr, 2023

从马尔科夫转移数据中学习状态聚合

本文提出了一个基于软聚合模型的简单算法，通过对系统轨迹的概率聚合图进行估计，可以获得显式形式的聚合分布和解聚分布，进而生成具有理解性的数据驱动状态聚合图。

Nov, 2018

无模型均场强化学习：均场 MDP 和均场 Q-Learning

通过视角转换，我们研究了具有共同噪声的无限时长打折的均场控制问题，并提出了一种适用于均值场设置的 RL 方法。

Oct, 2019

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022