关键词robust markov decision processes
搜索结果 - 7
- 通过随机博弈解决长期平均奖励健壮马尔可夫决策过程
马尔科夫决策过程(MDPs)为不确定性下的顺序决策制定了标准框架,但是 MDPs 中的转移概率通常是从数据中估计的,并且 MDPs 不考虑数据的不确定性。鲁棒马尔科夫决策过程(RMDPs)通过为每个转移分配不确定性集合而不是单个概率值来解决 - 通过频率正规化解决非矩形奖励鲁棒 MDPs
研究强健的马尔可夫决策过程中的关键问题,如不确定性集合、计算可行性以及策略访问频率正则化方法,并引入一种收敛的策略梯度方法进行分析。
- 通过对抗内核逼近实现稳健强化学习
通过对 RMDPs 中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒 RL 方法,该方法近似敌对核并使用标准的(非鲁棒)RL 算法来学习鲁棒策略。特别是,该方法可应用于任何基础 RL 算法之上,可以轻松扩展到高维领域。在经典控制任务,Mi - ICML无模型鲁棒平均奖励强化学习
该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。
- 稳健性马尔可夫决策过程理论研究:样本复杂度与渐近性
本文研究了鲁棒马尔可夫决策过程的最优鲁棒策略和价值函数的非渐近和渐近性能,并考虑了不同的不确定性集。实验验证了最优鲁棒价值函数在理论和实际应用中均呈现出典型的 √n 比例的渐近正态性。
- 通过条件风险价值优化学习健壮的选项
本文提出了一种基于条件风险价值方法的学习选项的方法,旨在处理具有不确定性的模型参数,以实现在平均和最坏情况下都能良好运作的选项,通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。
- 稳健强化学习的贝叶斯方法
本文提出了基于不确定性鲁棒贝尔曼方程(URBE)的 DQN-URBE 算法,通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数,并能够快速调整参数以适应系统行为的变化,在保持鲁棒性的同时获得更少保守的解。