PAC 强化学习用于预测状态表示

Jul, 2022

PAC Reinforcement Learning for Predictive State Representations

Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee

TL;DR本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Abstract

In this paper we study online reinforcement learning (RL) in partially observable dynamical systems. We focus on the predictive state representations (PSRs) model, which is an expressive model that captures other

online reinforcement learning predictive state representations partially observable markov decision processes sample complexity model-based algorithm

发现论文，激发创造

调和奖励与预测状态表示

描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法，通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系，展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的不匹配，最后验证了 R-PSR 作为可信赖且准确模拟观察和奖励的方法。

Jun, 2021

压缩预测状态的高效学习和规划

本研究提出了一种压缩 PSR（预测状态表示）的学习方法，结合降维、增量矩阵分解和压缩感知等技术，用于模型学习和规划。该方法提供了一个原则性的途径来学习 PSR 的准确近似，大大降低了学习的计算成本，并提供了有效的正则化。

Dec, 2013

利用预测状态表示关闭学习和规划循环

本文提出并演示了一种精确学习环境模型的新算法，该算法从行动 - 观测对的序列中直接学习此类环境的模型，并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。

Dec, 2009

预测状态表示：建模动态系统的新理论

本文提出了一种基于预测状态表征（PSRs）的离散时间动态系统模型，其主要思想是将系统的状态表示为可观测实验结果的预测，同时通过系统动力学矩阵来推导 PSRs，并证明了 PSRs 比 nth-order Markov 模型和 HMMs/POMDPs 更为通用，最后讨论了 PSRs 和 OOMs 之间的区别，并给出了未来工作的方向。

Jul, 2012

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024

带 B - 稳定性的部分可观测强化学习：统一的结构条件和尖锐的样本高效算法

本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件，即 B 稳定性，并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习，并且取得了很好的样本复杂度。

Sep, 2022

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

预测状态表示的 Hilbert 空间嵌入

利用有限基数假设的预测状态表示学习算法，该文章将预测状态表示（PSR）推广到无限观察和动作的集合，并使用分布的希尔伯特空间嵌入来表示状态，从而提高了预测和更新模型的效率。

Sep, 2013

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024