Jan, 2024

关于马尔可夫奖励在表达多目标、风险敏感和模态任务方面的限制

TL;DR本文研究了强化学习中标量马尔可夫奖励函数的表达能力,并确定了其所能表达的局限性。具体而言,我们关注三类强化学习任务;多目标强化学习、风险敏感强化学习和模态强化学习。针对每个类别,我们推导出描述该类别问题可使用标量马尔可夫奖励函数的必要和充分条件。此外,我们发现标量马尔可夫奖励函数无法表达每个类别中大多数实例。因此,我们为了更全面地了解标准奖励函数能够和不能够表达的内容做出了贡献。除此之外,我们还特别提到模态问题作为一个新的问题类别,因为目前强化学习文献中还没有对其进行系统性研究。我们还简要概述了通过专门的强化学习算法解决我们讨论的某些问题的方法。