使用谱方法进行丰富观测 MDP 的强化学习

Nov, 2016

使用谱方法进行丰富观测 MDP 的强化学习

Reinforcement Learning in Rich-Observation MDPs using Spectral Methods

Kamyar Azizzadenesheli, Alessandro Lazaric, Animashree Anandkumar

TL;DR本文研究富观测马尔科夫决策过程（ROMDP），提出了一种谱分解方法用于在有限时间内成功地学习到每个观测状态的隐状态，由此引入了基于寻优算法的强化学习算法 UCRL，且在维度依赖性方面具有较弱的相关性的有限时间遗憾边界。

Abstract

reinforcement learning (RL) in markov decision processes (MDPs) with large state spaces is a challenging problem. The performance of standard RL algorithms degrades drastically with the dimensionality of state sp

reinforcement learning markov decision processes spectral decomposition low-dimensional structure regret bounds

发现论文，激发创造

使用谱方法强化学习 POMDPs

提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程 (POMDP)，该算法基于谱分解方法，学习参数通过固定政策生成的轨迹，并通过优化 oracle 返回最优的无记忆规划策略，算法可以有效缩放观测和行动空间的维度。

Feb, 2016

基于谱方法的 POMDP 强化学习实验结果

提出了一种基于谱分解方法的新的强化学习算法，用于部分可观察马尔可夫决策过程（POMDP）。通过谱技术从由固定策略生成的轨迹中学习 POMDP 参数，运行多个历元后，最终通过优化预测的 POMDP 模型返回最佳无记忆策略，并证明了与最优无记忆策略具有相对最优的后悔界和有效的缩放性。

May, 2017

通过潜在状态解码的丰富观测下可证明的高效强化学习

该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下，研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射，并使用它构建了良好的探索策略。

Jan, 2019

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

在线稀疏强化学习

在稀疏线性马尔可夫决策过程中，通过引入一种新的算法 - Lasso fitted Q-iteration，通过一个具有一定条件的数据策略，以几乎无维度代价实现对在线强化学习的降低，但线性后悔在常用政策情况下仍然无法避免。

Nov, 2020

深度 MDP：学习连续潜空间模型以进行表征学习

介绍了一种参数化潜变量空间模型 DeepMDP，通过学习奖励和下一个潜变量状态的预测来训练模型，以提高强化学习中连续状态的表示效果，并证明其在 Atari 2600 游戏中可以明显提高模型性能。

Jun, 2019

基于目标的冗余观测环境推断

通过观察其余状态以有效学习核心状态之间的状态转移规则，针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。在逐步添加新的核心状态到转换图中的同时，本模型仅包含核心状态，它监督一小部分核心状态以了解动态环境并获得最佳行为策略，这使其具有良好的可解释性。此外，该方法适用于在线学习，可以抑制内存消耗并提高学习速度。

May, 2023

通过强化学习扩展鲁棒的马尔可夫决策过程

本文研究了面临参数不确定性的大规模马尔可夫决策过程（MDP），并基于鲁棒 MDP 范式，应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功，通过对期权定价问题的模拟的证明其有效性，是首次尝试扩大鲁棒 MDPs 范式的尝试。

Jun, 2013

潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证

我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优保证。我们相信这些结果对于广泛的交互式学习问题，特别是部分观测环境中，具有重要价值。

Jun, 2024

稀疏强化学习的双重稳健方法

我们提出了一种新的遗憾最小化算法，用于具有稀疏线性马尔可夫决策过程（SMDP）的情节性问题，其中状态转移分布是观察特征的线性函数。

Oct, 2023