特征强化学习:第一部分:非结构化MDPs
通过使用第一阶表示中的紧凑策略来选择大型马尔可夫决策过程的策略,我们通过训练数据来诱导第一阶策略,使用具有分类概念语言的决策列表的合集来表示我们的策略,我们发现此方法在概率领域中具有优越的效果,并讨论了此方法在关系加固学习问题上的应用。
Dec, 2012
提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程(POMDP),该算法基于谱分解方法,学习参数通过固定政策生成的轨迹,并通过优化oracle返回最优的无记忆规划策略,算法可以有效缩放观测和行动空间的维度。
Feb, 2016
提出了一种基于谱分解方法的新的强化学习算法,用于部分可观察马尔可夫决策过程(POMDP)。通过谱技术从由固定策略生成的轨迹中学习POMDP参数,运行多个历元后,最终通过优化预测的POMDP模型返回最佳无记忆策略,并证明了与最优无记忆策略具有相对最优的后悔界和有效的缩放性。
May, 2017
本论文介绍了一种基于特性映射的新算法,能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间,并且证明了该算法在一些强化学习的问题中,不需要访问生成模型就能取得多项式的最优后悔值,且总体上是近乎最优的。
Jun, 2020
本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法,该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法,并在多项基准实验中证明了其可行性和有效性。
Jan, 2023
线性马尔科夫决策过程(MDP)中的特征选择和零稀疏线性MDP,以及通过凸规划有效计算的模拟器、低深度决策树上的区块MDP的学习算法。
Sep, 2023
本研究解决了在大规模或无限状态和动作空间中设计高效样本和计算合理的强化学习算法的难题。我们提出了一种新算法,能够在给定特征映射下高效寻找近似最优策略,并在问题参数上呈多项式级别使用样本和成本敏感分类oracle。这一算法显著提升了现有方法的效能,尤其在处理无限状态和动作环境时,具有重要应用潜力。
Sep, 2024