一种适用于情节式 POMDP 的 PAC RL 算法

May, 2016

一种适用于情节式 POMDP 的 PAC RL 算法

A PAC RL Algorithm for Episodic POMDPs

Zhaohan Daniel Guo, Shayan Doroudi, Emma Brunskill

TL;DR本文研究了部分可观的强化学习问题，并提出了首个具有多项式边界的算法，用于处理一类重要的 POMDP 问题，该算法基于最近的方法学方法来估计潜在变量模型。

Abstract

Many interesting real world domains involve reinforcement learning (RL) in partially observable environments. Efficient learning in such domains is important, but existing →

reinforcement learning partially observable environments sample complexity bounds episodic pomdps method of moments

发现论文，激发创造

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

强化学习中泛化的困难之处：认知 POMDP 和隐式部分可观测性

本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化，并展示了强化学习问题的时序结构需要新的泛化方法，同时介绍了一种新的部分可观察马尔可夫决策过程（POMDP）解决方案 —— 认知 POMDP，通过简单的基于集成的技术解决了部分可观测性问题，证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。

Jul, 2021

基于后验采样的时态 POMDP 学习算法的遗憾分析

本文研究了具有未知转移和观测模型的 POMDPs 中的情节性学习问题，并证明了其贝叶斯后悔的规模与剧集数的平方根成正比。

Oct, 2023

可观测 POMDP 中的学习，无需计算难以处理的预言机

该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法，该算法不是基于传统的探索 - 利用原则，而是采用几何拓扑中的重心跨度技术构建策略套接，并且通过对状态分布和观测分布的假设来保证合理性。

Jun, 2022

使用丰富观察的 Oracle 有效 PAC RL

本文研究了 PAC 强化学习在富观察力下的计算复杂度，提出了基于确定性隐藏状态动态和随机富观察的可证明的样本有效算法，同时证明了在具有随机隐藏状态动态的情况下，已知样本有效算法 OLIVE 不能在 Oracle 模型中实现，通过几个示例表明了在这样一般的设置中可计算 PAC 强化学习的根本挑战。

Mar, 2018

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

固定视界强化学习的样本复杂度

本文研究了固定时间段内交互式学习智能体的表现，并从样本复杂度的角度提出了上下 PAC 确定性保证边界，为固定时间段内 MDP 的研究提供了理论上的支持。

Oct, 2015

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022