Sep, 2023
在线CMDPs中的无模型、后悔优化的最佳策略识别
Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs
TL;DR本研究针对在线约束马尔可夫决策过程(CMDP)中的最优策略识别问题,提出了一种名为Pruning-Refinement-Identification(PRI)的新算法,该算法基于所发现的CMDP的一个基本结构属性,称为有限随机性,实现了无模型的高概率接近最优策略的学习,并在表格设置下提供了改进的后悔损失和约束违规的保证。