BriefGPT.xyz
Aug, 2023
关于马尔可夫决策过程的奖励结构
On Reward Structures of Markov Decision Processes
HTML
PDF
Falcon Z. Dai
TL;DR
马尔可夫决策过程在强化学习中起着关键作用,本研究探讨了多种与强化学习相关的'成本',研究了策略评估的样本复杂度,并开发了一种具有实例特定误差界限的新估计器;在在线遗憾最小化设置下,通过引入基于奖励的常量和基于潜力的奖励塑形技术,提供了理论上的解释;提出了一种安全强化学习研究方法,建立了重置效率的量化概念;针对具有多个奖励函数的决策过程,开发了一个能够计算出帕累托最优随机策略的规划算法。
Abstract
A
markov decision process
can be parameterized by a transition kernel and a reward function. Both play essential roles in the study of
reinforcement learning
as evidenced by their presence in the Bellman equation
→