预测状态表示:建模动态系统的新理论
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
本研究提出了一种压缩 PSR(预测状态表示)的学习方法,结合降维、增量矩阵分解和压缩感知等技术,用于模型学习和规划。该方法提供了一个原则性的途径来学习 PSR 的准确近似,大大降低了学习的计算成本,并提供了有效的正则化。
Dec, 2013
描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的不匹配,最后验证了 R-PSR 作为可信赖且准确模拟观察和奖励的方法。
Jun, 2021
利用有限基数假设的预测状态表示学习算法,该文章将预测状态表示(PSR)推广到无限观察和动作的集合,并使用分布的希尔伯特空间嵌入来表示状态,从而提高了预测和更新模型的效率。
Sep, 2013
我们提出了一种新的模型,Predictive State Recurrent Neural Networks (PSRNNs),用于过滤和预测动态系统中的信息。我们使用了循环神经网络 (RNNs) 和预测状态表示 (PSRs) 的见解,并继承了这两种模型的优势。我们表明,我们的模型可以通过联合反向传播算法和基于统计一致性的学习算法 Two-Stage Regression (2SR) 的初始化来有效地学习和因数分解模型大小,以减少模型计算时间和提高模型性能。通过实验,我们证明了在所有情况下,PSRNNs 比其他常见的动态系统建模方法都有更好的表现。
May, 2017
通过向最先进的递归神经网络添加预测状态解码器 (PSD) 来结合递归神经网络和预测状态表示法 (PSR) 的优点,从而使其能够更好地进行动态过程的建模和预测,并在三个不同的领域实验中证明了其有效性。
Sep, 2017
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动 - 观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。
Dec, 2009
这项工作介绍了物理信息化状态空间神经网络模型(PSMs),它是实现自主系统中的实时优化、灵活性和容错性的一种新颖解决方案,特别适用于化学、生物医学和电力等以传输为主的系统。通过两个硅橡胶实验 —— 加热通道和制冷系统环路,我们证明了 PSMs 比纯数据驱动模型提供了更准确的方法。除了准确性,PSMs 还具有几个引人注目的用途:通过顺序更新的状态空间表示创建非线性监控控制器以及使用来自 PDE 的残差提出诊断算法。我们进一步提出 PSMs 可以作为数字孪生的基础,不断更新的物理系统的数字表示。
Sep, 2023
本篇论文提出了一种基于双重随机变分推断和高斯过程的可扩展训练算法,用于可靠地训练完全概率状态空间模型中的潜在状态时间相关性, 并在真实世界基准数据集集上评估了所提出的 PR-SSM 的效果与最先进的概率模型学习方法进行了比较
Jan, 2018