BriefGPT.xyz
Nov, 2024
马尔可夫决策过程中的累积奖励集中性
Concentration of Cumulative Reward in Markov Decision Processes
HTML
PDF
Borna Sayedana, Peter E. Caines, Aditya Mahajan
TL;DR
本文研究了马尔可夫决策过程(MDP)中累积奖励的集中性特性,旨在填补现有文献在这一领域的不足。我们提出了一种统一的方法来表征MDP中的奖励集中性,涵盖了无限期和有限期的设置,发现了样本路径中不同静态策略之间奖励差异的行为及其对学习策略后悔率定义的影响,从而为MDP的分析提供了新的视角。
Abstract
In this paper, we investigate the concentration properties of cumulative rewards in
Markov Decision Processes
(MDPs), focusing on both asymptotic and non-asymptotic settings. We introduce a unified approach to characterize
→