一种适用于情节式 POMDP 的 PAC RL 算法
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
本研究提出一种新的强化学习模型,将上下文逐步演化到顺序决策制定,通过分析最小二乘值淘汰算法表明,在某些特定情形,强化学习方法的范数较优行为可以在多项式时间内学习。
Feb, 2016
本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案 —— 认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法,该算法不是基于传统的探索 - 利用原则,而是采用几何拓扑中的重心跨度技术构建策略套接,并且通过对状态分布和观测分布的假设来保证合理性。
Jun, 2022
本文研究了 PAC 强化学习在富观察力下的计算复杂度,提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法,同时证明了在具有随机隐藏状态动态的情况下,已知样本有效算法 OLIVE 不能在 Oracle 模型中实现,通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。
Mar, 2018
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP,它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法,并建立了一组在表格和丰富观察设置下,学习这类问题的近优策略的样本复杂性的上下界,并证明了短期记忆对于这些环境的强化学习已经足够。
Feb, 2022