BriefGPT.xyz
Jan, 2022
具有约束条件的无限时间平均奖励马尔可夫决策过程学习
Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints
HTML
PDF
Liyu Chen, Rahul Jain, Haipeng Luo
TL;DR
本研究提出了一种政策优化算法,用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题,该算法在符合一定条件的MDP下具有较低的后悔度和约束违反率,并将其推广到弱通信MDP领域,为该领域提供了复杂度可行的算法。
Abstract
We study
regret minimization
for infinite-horizon average-reward
markov decision processes
(MDPs) under cost constraints. We start by designing a
→