随机动作集的规划与学习
本文介绍了基于马尔可夫决策过程(MDP)中存在确定性可选动作集合的局限性,提出了一种新的基于随机动作集合的马尔可夫决策过程(SAS-MDP)模型,并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题,提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件,并通过真实用例启发的任务实验表明了该方法的实用性。
Jun, 2019
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022
在复杂环境中,使用深度神经网络作为函数近似器的大离散行为空间的强化学习问题中,传统的基于值的强化学习方法存在计算负担,本文提出了一种用于优化前 $n$ 个动作集合的变量随机子集的基于值的强化学习方法,并通过理论证明和实证验证表明,在不同控制问题上,这些方法在减少时间的同时仍能实现接近最优的平均回报。
May, 2024
介绍了一种无模型算法,用于在具有参数化动作的马尔可夫决策过程中学习 - 离散动作具有连续参数。提出了用于在这些领域中学习的 Q-PAMDP 算法,并将其与 Platform 和 Goal-scoring 领域中的直接政策搜索进行比较。
Sep, 2015
在随机控制的领域中,尤其是在经济学和工程学中,马尔可夫决策过程(MDPs)能够有效地建模各种随机决策过程,从资产管理到运输优化。本文定义了一个 MDP 框架,SD-MDP,通过解开 MDPs 的转移和奖励动态的因果结构,提供了时间因果图上的不同分区。通过将这个估计器集成到著名的蒙特卡洛规划算法中,如蒙特卡洛树搜索(MCTS),我们还得出了算法的简单遗憾界限。最后,我们通过在基于海上加油的实际经济示例中展示 MCTS 规划算法在 SD-MDP 框架下取得更高预期奖励(更低成本)的政策改进。
Jun, 2024
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
使用前向搜索稀疏采样算法(FSSS)可以实现接近 Bayes 最优行为,从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程(MDPs)。
Feb, 2012