基于树搜索的随机执行延迟下的策略优化
使用前向搜索稀疏采样算法(FSSS)可以实现接近 Bayes 最优行为,从而使用 Monte-Carlo 树搜索算法有效地处理状态空间极大或无限大的马尔可夫决策过程(MDPs)。
Feb, 2012
本研究旨在解决在非恒定随机环境下的鲁棒零-shot规划问题,通过引入定义了特定类别的马尔可夫决策过程来进行计算建模,并提出了一种零-shot基于模型的风险敏感树搜索算法。
Apr, 2019
该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与Gym和MuJoCo平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
May, 2020
该研究提出了一种针对MDP的决策学习与规划框架,其中决策制定者执行的动作有$m$步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的Q-learning风格模型。
Jan, 2021
本文探讨在有限时间马尔可夫决策过程的框架下,基于树形搜索策略的蒙特卡罗树搜索(MCTS)。提出了一种动态抽样树策略,有效地分配有限的计算预算,以最大化选择最佳根节点动作的正确性概率。实验结果表明,所提出的树策略比其他竞争方法更有效。
Apr, 2022
本文提出了一种优化方法,通过线性规划直接优化有限深度的决策树,使其在马尔科夫决策过程中达到最优性能,可用于解决强化学习策略可解释性的问题。通过实验证明,这种方法在性能和可解释性之间取得了平衡。
Jan, 2023
本文提出一种新型的神经网络方案SoftTreeMax,通过树形计划从多个层面减轻策略梯度算法中的大方差、高样本复杂度问题,实现在Atari游戏中优异的性能表现。
Jan, 2023
本研究提出了一种名为LCEOPT的简单在线POMDP求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。
May, 2023
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点,然后比较了这些方法在控制多个Atari游戏方面的性能。
Feb, 2024