多维马尔可夫奖励的表达能力

Jul, 2023

On the Expressivity of Multidimensional Markov Reward

Shuwa Miura

TL;DR我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力，通过将马尔可夫决策过程(MDPs)中的奖励函数视为代理行为的特征化手段，研究了是否存在一种标量或多维度马尔可夫奖励函数，使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出了这样的奖励函数存在的必要和充分条件，同时也证明了对于任意非退化的确定性策略集合，都存在一个多维度的马尔可夫奖励函数来描述它。

Abstract

We consider the expressivity of markov rewards in sequential decision making under uncertainty. We view reward functions in Markov Decisio