BriefGPT.xyz
Jul, 2023
多维马尔可夫奖励的表达能力
On the Expressivity of Multidimensional Markov Reward
HTML
PDF
Shuwa Miura
TL;DR
我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力,通过将马尔可夫决策过程(MDPs)中的奖励函数视为代理行为的特征化手段,研究了是否存在一种标量或多维度马尔可夫奖励函数,使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出了这样的奖励函数存在的必要和充分条件,同时也证明了对于任意非退化的确定性策略集合,都存在一个多维度的马尔可夫奖励函数来描述它。
Abstract
We consider the
expressivity
of
markov rewards
in
sequential decision making
under uncertainty. We view reward functions in Markov Decisio
→