本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
本文提出了一种基于预测状态表征(PSRs)的离散时间动态系统模型,其主要思想是将系统的状态表示为可观测实验结果的预测,同时通过系统动力学矩阵来推导 PSRs,并证明了 PSRs 比 nth-order Markov 模型和 HMMs/POMDPs 更为通用,最后讨论了 PSRs 和 OOMs 之间的区别,并给出了未来工作的方向。
Jul, 2012
描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的不匹配,最后验证了 R-PSR 作为可信赖且准确模拟观察和奖励的方法。
Jun, 2021
本研究提出了一种压缩 PSR(预测状态表示)的学习方法,结合降维、增量矩阵分解和压缩感知等技术,用于模型学习和规划。该方法提供了一个原则性的途径来学习 PSR 的准确近似,大大降低了学习的计算成本,并提供了有效的正则化。
Dec, 2013
本文探讨了在部分可观察环境下的安全强化学习问题,旨在实现安全可达性目标。通过提出一种基于随机模型的方法,在面对未知系统动态和部分观测环境时,几乎确定地保证了强化学习的安全性。利用预测状态表示和再生核希尔伯特空间,对未来的多步观测进行了解析表示,并通过核贝叶斯规则导出了关键操作,可以使用不同的操作递归估计未来的观测。在假设观测和动作空间无限大的情况下,为强化学习算法建立了多项式样本复杂度,确保了 ε- 次优安全策略保证。
Dec, 2023
研究了一种使用嵌入表示条件分布的非参数方法,该方法无需估计转移概率或密度,可用于标准控制问题和只有传感器输入的导航问题中,利用值迭代算法和方策迭代算法获得更好的最优策略和价值函数性能。
Jun, 2012
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动 - 观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。
Dec, 2009
该文介绍了一种基于希尔伯特空间嵌入的分布表征方法,该方法利用再生核希尔伯特空间将分布映射到一个空间中,并扩展了一般支持向量机和其他核方法的整个内核方法库,为概率测量、统计推断、因果发现和深度学习等领域提供了广泛应用,并讨论了该方法的理论保证,应用和未来的研究方向。
May, 2016
我们提出了一种新的模型,Predictive State Recurrent Neural Networks (PSRNNs),用于过滤和预测动态系统中的信息。我们使用了循环神经网络 (RNNs) 和预测状态表示 (PSRs) 的见解,并继承了这两种模型的优势。我们表明,我们的模型可以通过联合反向传播算法和基于统计一致性的学习算法 Two-Stage Regression (2SR) 的初始化来有效地学习和因数分解模型大小,以减少模型计算时间和提高模型性能。通过实验,我们证明了在所有情况下,PSRNNs 比其他常见的动态系统建模方法都有更好的表现。
May, 2017
通过向最先进的递归神经网络添加预测状态解码器 (PSD) 来结合递归神经网络和预测状态表示法 (PSR) 的优点,从而使其能够更好地进行动态过程的建模和预测,并在三个不同的领域实验中证明了其有效性。
Sep, 2017