Aug, 2023

关于马尔可夫决策过程的奖励结构

TL;DR马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的 ' 成本 ',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。