Jul, 2023

多维马尔可夫奖励的表达能力

TL;DR我们研究了不确定性下的序贯决策中马尔可夫奖励的表达能力,通过将马尔可夫决策过程(MDPs)中的奖励函数视为代理行为的特征化手段,研究了是否存在一种标量或多维度马尔可夫奖励函数,使得这个集合中的策略比其他策略更具吸引力。我们的主要结果给出了这样的奖励函数存在的必要和充分条件,同时也证明了对于任意非退化的确定性策略集合,都存在一个多维度的马尔可夫奖励函数来描述它。