基于马尔可夫决策过程的层级装配
我们提出了一种新颖的层次强化学习方法,针对无限时域平均奖励设置中的线性可解决的马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制。我们的方法依赖于创造较小子任务的状态空间分割,并利用这种分割的等价性以实现更高效的学习。然后,我们利用低级任务的组合性来准确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习高出一到几个数量级。
Jul, 2024
本文总结了解决 Markov 决策问题及其算法运行时间的复杂性,并讨论了需要进一步研究实际算法来快速解决大问题的问题。同时,本文提出了一些基于 MDP 结构的替代分析方法,以鼓励未来的研究。
Feb, 2013
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
本研究提出了一种基于代数决策图来表示价值函数和策略的 Markov 决策过程的值迭代算法,并将其应用于波西网络和 ADDs 表示的大规模 MDPs 中,相较于树形结构表示方式大幅降低了节点数量。
Jan, 2013
本文提出了一种采用马尔可夫决策过程(MDP)的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略,同时开发了一个转移模型估计器来优化数据利用,实验结果表明该算法在自适应学习领域有着较高的效率。
Apr, 2020
研究了在转换概率分布和损失函数是对手选择并随时间变化时,如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法,如果转换概率满足均匀混合条件,则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值,我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。
Mar, 2013
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013
本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。
Jun, 2018
本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题,并使用线性规划和两种方法,即基于随机凸优化和基于约束采样的方法,将性能提高到与在低维策略类中的任何策略相比的最佳水平。
Feb, 2014
提出了一种名为 Monotone-ADP 的算法,利用价值函数的单调性来提高收敛速度,在三个应用领域中展示了数值结果,可以用比计算最优解所需计算量少两个数量级的迭代次数获得高质量解决方案。
Jan, 2014