马尔科夫决策过程中约束风险的强化学习策略
本文研究带错误状态的马尔可夫决策过程,并提出了基于风险和价值函数的启发式强化学习算法用于优化控制任务,实验结果表明该算法可以在模型假设被放宽的情况下成功应用于控制任务。
Sep, 2011
本文研究利用概率风险约束的马尔可夫决策过程,通过计算梯度并设计算法实现了局部最优策略,解决了累积成本最小化的顺序决策问题,例子包括最优停止问题和在线营销应用。
Dec, 2015
本文提出了一种基于约束和蒙特卡罗树搜索的方法Vulcan,用于解决在可能存在危险结果或未知环境情况下的决策问题,并在计算效率和结果优化度等方面取得了较好的结果。
Sep, 2018
本文研究了Constrained Markov Decision Processes下的exploration-exploitation trade-off问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明,这两种方法都可以实现sublinear regret,但是线性规划方法具有更强的保障性。
Mar, 2020
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题,该算法将成本累加约束转化为基于状态的约束,并确保代理在训练过程中满足这些约束,同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版MuJoCo环境中表现出色。
Aug, 2020
该研究旨在设计面向具有动态一致风险目标和约束的马尔可夫决策过程的策略。作者提出了一个基于优化的方法来综合最小化受约束的风险-厌恶问题的可行马尔可夫策略,并通过数值实验验证了该方法的有效性。
Dec, 2020
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的'成本',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Aug, 2023
我们提出了一种基于在线强化学习算法的约束马尔可夫决策过程,其中包含一个安全约束。通过线性规划算法,我们演示了学习到的策略在很高的置信度下是安全的。我们还提出了计算安全基准策略的方法,并演示了该算法的有效性。同时,我们通过定义状态空间的子集,称为代理集,实现了高效的探索。
Mar, 2024
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024