基于丰富观测的 PAC 强化学习

Feb, 2016

PAC Reinforcement Learning with Rich Observations

Akshay Krishnamurthy, Alekh Agarwal, John Langford

TL;DR本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Abstract

We propose and study a new model for reinforcement learning with rich observations, generalizing contextual bandits to sequential decision making

reinforcement learning contextual bandits sequential decision making least squares value elimination function approximation

发现论文，激发创造

使用丰富观察的 Oracle 有效 PAC RL

本文研究了 PAC 强化学习在富观察力下的计算复杂度，提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法，同时证明了在具有随机隐藏状态动态的情况下，已知样本有效算法 OLIVE 不能在 Oracle 模型中实现，通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。

Mar, 2018

一种适用于情节式 POMDP 的 PAC RL 算法

本文研究了部分可观的强化学习问题，并提出了首个具有多项式边界的算法，用于处理一类重要的 POMDP 问题，该算法基于最近的方法学方法来估计潜在变量模型。

May, 2016

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

透视强化学习的庞特里亚金方法

传统上，强化学习集中于学习状态相关策略以解决闭环最优控制问题；本文提出了开环强化学习范式，通过学习固定行动序列，引入了三种新算法：一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理，而非动态规划中的贝尔曼方程，我们提供了收敛性保证，并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。

May, 2024

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

May, 2024

几乎极小化最优无奖学习

研究奖励免费强化学习框架，提出新的有效算法 SS+TP，通过探索和计划两个阶段，分别进行轨迹收集和任意奖励函数优化，达到对多个奖励函数的策略优化。

Oct, 2020

POMDP 的深层变分强化学习

本文提出了一种深度变分强化学习方法，该方法引入了归纳偏置，允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明，我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。

Jun, 2018