关键词predictive state representations
搜索结果 - 11
- 关于信息结构在不完全可观察的序列团队与游戏中的增强学习的作用
通过明确信息结构,我们提出了新的强化学习模型,捕捉了经典模型作为特例,以更丰富的方式分析顺序决策问题并实现更具针对性的算法设计。
- 多任务强化学习在非马尔可夫决策过程中的可证明收益
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。
- 可证明有效的 UCB 类算法用于学习预测状态表示
该研究提出了适用于预测状态表示(PSRs)的首个 UCB(Upper Confidence Bound)方法,具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。
- 带 B - 稳定性的部分可观测强化学习:统一的结构条件和尖锐的样本高效算法
本论文在预测状态表示的一般设置中针对部分可观察的强化学习提出了一种自然而统一的结构条件,即 B 稳定性,并通过乐观极大似然估计、估计至决策和基于模型的乐观后验抽样的三种算法来实现对 B 稳定性预测状态表示的多项式样本学习,并且取得了很好的样 - PAC 强化学习用于预测状态表示
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中 - IJCAI调和奖励与预测状态表示
描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的 - 预测状态循环神经网络
我们提出了一种新的模型,Predictive State Recurrent Neural Networks (PSRNNs),用于过滤和预测动态系统中的信息。我们使用了循环神经网络 (RNNs) 和预测状态表示 (PSRs) 的见解,并继 - 时序差分网络
介绍了一种将时间差异(TD)学习推广到相互关联预测网络的方法, TD 网络能够表示和应用 TD 学习到比以前更广泛的预测类别,并通过将预测之间的关系作为条件来提高学习效率,此外,还演示了 TD 网络可以学习预测状态表示,成为 TD 方法能力 - 压缩预测状态的高效学习和规划
本研究提出了一种压缩 PSR(预测状态表示)的学习方法,结合降维、增量矩阵分解和压缩感知等技术,用于模型学习和规划。该方法提供了一个原则性的途径来学习 PSR 的准确近似,大大降低了学习的计算成本,并提供了有效的正则化。
- 预测状态表示的 Hilbert 空间嵌入
利用有限基数假设的预测状态表示学习算法,该文章将预测状态表示(PSR)推广到无限观察和动作的集合,并使用分布的希尔伯特空间嵌入来表示状态,从而提高了预测和更新模型的效率。
- 预测状态表示:建模动态系统的新理论
本文提出了一种基于预测状态表征(PSRs)的离散时间动态系统模型,其主要思想是将系统的状态表示为可观测实验结果的预测,同时通过系统动力学矩阵来推导 PSRs,并证明了 PSRs 比 nth-order Markov 模型和 HMMs/POM