调和奖励与预测状态表示

IJCAIJun, 2021

Reconciling Rewards with Predictive State Representations

Andrea Baisero, Christopher Amato

TL;DR描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法，通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系，展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的不匹配，最后验证了 R-PSR 作为可信赖且准确模拟观察和奖励的方法。

Abstract

predictive state representations (PSRs) are models of controlled non-Markov observation sequences which exhibit the same generative process governing pomdp observations without relying on an underlying latent sta

predictive state representations pomdp rewards value iteration generative models

发现论文，激发创造

PAC 强化学习用于预测状态表示

本文研究了在线强化学习在部分可观测动态系统中的应用，提出了一种基于模型的算法，通过可观测量学习了一个近似最优策略，其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近，可处理具有潜在大状态和观测空间的系统，并且在一些特殊模型中也得到了有效应用。

Jul, 2022

预测状态表示：建模动态系统的新理论

本文提出了一种基于预测状态表征（PSRs）的离散时间动态系统模型，其主要思想是将系统的状态表示为可观测实验结果的预测，同时通过系统动力学矩阵来推导 PSRs，并证明了 PSRs 比 nth-order Markov 模型和 HMMs/POMDPs 更为通用，最后讨论了 PSRs 和 OOMs 之间的区别，并给出了未来工作的方向。

Jul, 2012

压缩预测状态的高效学习和规划

本研究提出了一种压缩 PSR（预测状态表示）的学习方法，结合降维、增量矩阵分解和压缩感知等技术，用于模型学习和规划。该方法提供了一个原则性的途径来学习 PSR 的准确近似，大大降低了学习的计算成本，并提供了有效的正则化。

Dec, 2013

利用预测状态表示关闭学习和规划循环

本文提出并演示了一种精确学习环境模型的新算法，该算法从行动 - 观测对的序列中直接学习此类环境的模型，并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。

Dec, 2009

预测状态表示的 Hilbert 空间嵌入

利用有限基数假设的预测状态表示学习算法，该文章将预测状态表示（PSR）推广到无限观察和动作的集合，并使用分布的希尔伯特空间嵌入来表示状态，从而提高了预测和更新模型的效率。

Sep, 2013

预测状态解码器：将未来编码进循环网络中

通过向最先进的递归神经网络添加预测状态解码器 (PSD) 来结合递归神经网络和预测状态表示法 (PSR) 的优点，从而使其能够更好地进行动态过程的建模和预测，并在三个不同的领域实验中证明了其有效性。

Sep, 2017

预测状态循环神经网络

我们提出了一种新的模型，Predictive State Recurrent Neural Networks (PSRNNs)，用于过滤和预测动态系统中的信息。我们使用了循环神经网络 (RNNs) 和预测状态表示 (PSRs) 的见解，并继承了这两种模型的优势。我们表明，我们的模型可以通过联合反向传播算法和基于统计一致性的学习算法 Two-Stage Regression (2SR) 的初始化来有效地学习和因数分解模型大小，以减少模型计算时间和提高模型性能。通过实验，我们证明了在所有情况下，PSRNNs 比其他常见的动态系统建模方法都有更好的表现。

May, 2017

可证明有效的 UCB 类算法用于学习预测状态表示

该研究提出了适用于预测状态表示（PSRs）的首个 UCB（Upper Confidence Bound）方法，具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。

Jul, 2023

连接状态与历史表征：理解自预测强化学习

深度强化学习的关键是表示方法，这篇论文揭示了多种表示学习方法和理论框架之间的共同性，特别是基于自预测抽象的思想，并给出了学习自预测表示方法的最简算法和实用指南。

Jan, 2024

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024